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算法 是 机 器 的 灵魂 ; 机 器 学 习 可 以 理解 成 是 产生 算法 的 算法 ; 深度 学 习 可 以 自动 提取 特征 ; AutoML 则 可 以 自动 寻找 最 合适 
的 神经 网 络 拓扑 结构 。 不 断 演 进 的 算法 在 上 日益 强 大 的 计算 能 力 支 撑 下 能 处 理 越 来 越 复杂 的 任务 。 本 书 是 一 本 很 好 的 深度 学 习 入 门 
读物 ， 从 机 器 学 习 的 基本 概念 过 渡 到 深度 神经 网 络 的 原理 和 应 用 ， 并 延伸 到 网 络 的 一 些 变种 和 新 的 特性 。 读 完 此 书 可 以 全 面 了 解 


深度 学 习 以 及 TensorFlow 开 源 框 架 的 相关 内 容 ， 你 可 以 感受 到 其 实 深 度 学 习 并 不 神秘 ， 人 工 智 能 的 未 来 人 类 完全 可 以 掌控 。 
一 一 朱 频 频 ， 小 i 机 器 人 创始 人 、 首 席 执 行 官 


“把 简单 问题 讲 复杂 很 简单 ， 把 复杂 问题 讲 简单 很 复杂 ”， 大 数据 、 深 度 学 习 都 是 极其 复杂 的 问题 ， 我 曾经 想 过 写本 书 ， 用 
通俗 易 懂 的 方式 介绍 大 数据 与 深度 学 习 的 方方面面 ， 现 在 看 来 不 需要 了 ， 高 扬 先 生 这 套 白话 系列 图 文 并 茂 、 深 入 浅 出 又 不 失学 术 
性 ， 非 常 值得 研读 。 


— 王 庆 法 ， 阳 光 保 险 集 团 大 数据 中 心 副 总 经 理 兼 首席 架构 师 、 平 台 部 总 经 理 ， 首 席 数 据 官 联盟 专家 组 成 员 


在 看 到 这 本 书 的 样 章 的 时 候 ，AlphaGo 2.03E A3 : 0 的 比分 大 胜 了 围棋 世界 排名 第 一 的 柯 洁 。 街 头 埠 尾 的 男男女女 都 在 谈论 
着 AlphaGo 的 神奇 力量 ,仿佛 一 夜 之 间 ， 人 工 智能 成 为 了 最 火爆 的 时 尚 名 词 。 很 多 人 都 在 讨论 着 ， 未 来 是 机 器 人 的 世界 ， 机 器 会 
统治 世界 吗 ， 人 类 还 有 未 来 吗 ? 作为 技术 的 专业 人 员 ， 无 论 大 家 的 讨论 有 多 么 蕊 识 ， 我 们 都 意识 到 一 场 新 的 科技 革命 已 经 开始 
了 ， 终 将 改变 人 类 的 未 来 。 但 是 对 于 人 工 智 能 ， 大 家 都 会 有 自己 的 理解 ， 很 多 观点 是 负面 的 ， 黄 至 是 荒 雇 的。 作为 专业 技术 人 
员 ， 我 们 应 该 更 好 地 去 帮助 大 家 认识 人 工 智能 是 什么 以 及 它 是 如 何 运作 的 ， 让 大 家 更 客观 、 浅 显 地 理解 这 个 技术 变革 。 可 大 部 分 
关于 人 工 智能 的 著作 ， 都 偏 于 技术 专业 性 ， 而 不 容易 为 普通 学 习 者 所 理解 。 而 非 专 业 的 媒体 ， 很 多 观点 又 是 如 此 不 切实 际 。 本 书 
是 关于 人 工 智 能 的 关键 技术 深度 学 习 的 科 首 著作 。 看 到 了 本 书 ， 笔 者 不 由 眼前 一 亮 。 关 于 技术 观点 的 讲解 即 不 和 之 专业 性 ， 又 以 浅 
显 的 例子 告诉 普通 人 ， 机 器 学 习 是 什么 。 一 本 非常 好 的 科普 性 的 技术 著作 ， 布 望 更 多 的 人 可 以 通过 作者 的 文字 ， 真 正 理 解 人 工 物 
能 的 关键 技术 一 一 深度 学 习 的 原理 及 实际 未 来 的 前 景 。 也 期 待 更 多 的 爱好 者 ， 由 此 书 可 以 加 入 到 深度 学 习 工 作 中 ， 为 未 来 人 工 知 
能 的 发 展 写 下 浓重 的 一 笔 。 


一 一 王 海 龙 ， 秒 钱 CTO 
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时 代 的 巨轮 已 经 驶 入 了 21 世 纪 第 二 个 十 年 的 后 半 ， 科 技 的 发 展 速度 一 次 一 次 超越 我 们 的 想象 力 ， 给 我 们 带 来 无 限 的 惊喜 。 


近 两 年 最 为 吸 睛 的 当 属 谷歌 的 阿尔 法 围棋 程序 大 胜 人 类 围棋 大 师 一 一 先 有 李 世 有 至 九段 不 敌 ， 后 有 柯 洁 九 段落 败 ， 围 棋 这 样 一 
个 长 期 以 来 人 类 一 直 可 以 傲视 人 工 智 能 的 领域 也 被 计算 机 所 征服 。 


到 现在 ， 靠 机 器 人 来 扫地 ， 靠 刷 脸 来 取 钱 ， 靠 自动 驾驶 来 周游 世界 已 然 不 是 什么 科幻 小 说 中 的 内 容 了 ， 这 些 事情 已 经 真实 地 
发 生 在 我 们 的 身边 。 


人 工 智能 正在 逐渐 在 每 个 细节 上 改变 我 们 的 生产 能 力 ， 改 变 我 们 的 生活 。 


这 种 可 以 把 人 从 大 量 繁 宛 重复 的 劳动 中 解放 出 来 的 高 新 科技 领域 在 未 来 二 三 十 年 ， 甚 至 更 为 长 远 的 时 间 内 都 会 是 最 为 吸引 人 
的 研究 方向 。 

包括 深度 学 习 在 内 的 人 工 智 能 应 用 技术 在 每 个 人 类 涉足 的 领域 都 将 发 挥 越 来 越 大 的 作用 。 

我 坚信 ， 和 其 他 历史 上 出 现 过 的 先进 技术 一 样 ， 这 些 知 识 与 技术 将 越 来 越 平 民 化 ， 就 像 PC 一 样 逐 渐 成 为 每 个 人 在 工作 中 都 
不 可 或 缺 的 工具 。 

我 想 每 一 个 时 代 的 弄潮儿 都 不 应 错过 在 这 波澜 壮阔 的 历史 新 纪元 中 的 每 一 条 浪花 。 


这 本 书 概念 清晰 ， 语 言 平 实 ， 实 例 讲解 丰富 ， 是 一 本 非常 适合 入 门 的 深度 学 习 读 本 ， 尤 其 是 对 公式 推导 做 了 最 大 程度 的 白话 
解释 与 避让 ， 使 得 可 读 性 大 大 增强 。 


相信 每 位 读者 都 能 从 中 汲取 到 相应 的 知识 与 启发 。 


一 一 李 学 凌 ， 欢 聚 时 代 董 事 长 兼 CEO 


为 什么 要 与 这 本 书 


近 些 年 来 ， 伴 随 着 计算 机 计算 能 力 的 不 断 升级 ， 很 多 原来 只 有 在 科幻 电影 里 才 有 的 桥 段 越 来 越 多 地 出 现在 我 们 身边 了 ， 并 给 
了 我 们 更 多 的 想象 空间 与 期 待 。 


在 2016 年 ， 人 工 智 能 界 最 令 人 瞩目 的 事情 莫 过 于 谷歌 的 AlphaGo 以 4: 1 的 悬殊 比分 轻松 击败 韩国 著名 九段 围棋 大 师 李 世 石 。 
之 后 化 名 Mastef 的 AlphaGo 更 是 一 路 大 开 杀 戒 ， 分 别 在 对 弈 网 站 “ 弈 城 和 “腾讯 围棋 登录， 先后 打败 了 柯 洁 九 段 、 朴 廷 
桓 九 段 、 陈 耀 烨 九段 以 及 创造 日 本 大 满 贯 传奇 的 并 山 裕 太 和 亚洲 杯 冠 军 李 钦 诚 等 世界 一 流 高 手 ， 取 得 了 50 胜 0 负 的 战绩 1。 当然 
了 ，“ 玩 不 起 ”的 人 类 最 终 觉 得 让 AlphaGo 在 国际 围棋 网 站 排名 上 占 一 个 坑 来 研 压 人 类 是 非常 “不 公平 ”的 事情 ， 最 终 把 人 家 给 
拉 黑 了 。 

人 类 这 么 做 是 不 是 有 违 AI (Artificial Intelligence， 人 工 智 能 ) 研究 的 初衷 暂且 不 讨论 ， 毕 竟 我 们 的 眼光 还 是 应 该 更 多 地 投向 
那些 “更 有 趣 ” 的 领域 。 除 此 之 外 ， 还 有 很 多 非常 有 趣 的 人 工 智 能 项 目 也 经 常 在 网 络 视频 中 带 给 我 们 惊喜 ， 比 如 谷歌 的 机 械 狗 、 
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这 种 机 械 狗 很 有 趣 ， 除 了 能 够 彼此 之 间 互 相 协 调 进行 编队 行进 以 外 ， 还 能 像 真 的 狗 一 样 在 被 踢 了 一 脚 之 后 迅速 调整 重心 ， 
在 短暂 的 跟 踊 后 站 稳 ， 然 后 继续 先前 作业 ， 不 过 怎么 踢 都 不 会 来 咬 你 。 


而 谷歌 的 无 人 轰 驶 汽车 也 有 着 非常 优异 的 能 力 ， 到 2015 年 11 月 底 为 止 ， 根 据 谷 歌 提 交 给 机 动车 辆 管理 局 的 报告 ， 谷 歌 的 无 人 
驾驶 汽车 在 自动 模式 下 已 经 完成 了 130 多 万 英里 的 里 程 。 


可 以 说 ， 这 些 事 情 都 在 鼓舞 着 我 们 这 些 对 未 来 世界 充满 渴望 的 人 投入 更 多 的 精力 去 研究 AI 带 来 的 新 惊喜 ， 而 人 工 物 能 这 一 
领域 中 最 为 核心 的 内 容 之 一 就 是 深度 学 习 。 深 度 学 习 现 在 在 全 世界 范围 内 都 有 着 众多 的 专业 工作 者 和 业余 爱好 者 在 进行 着 研究 ， 


并 且 每 个 月 都 有 不 少 新 的 落地 产品 问世 。 应 该 说 ， 深 度 学 习 是 目前 世界 上 最 热门 的 研究 领域 之 一 ， 而 且 也 是 未 来 几 十 年 最 热门 的 


研究 方向 之 一 。 


— BARRA 
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张 ， 他 们 非常 渴望 了 解 深度 学 习 的 知识 并 加 以 应 用 。 但 是 ， 深 度 学 习 由 于 其 本 身 的 复杂 性 ， 使 得 很 多 有 着 浓厚 兴趣 的 爱好 者 望 而 
， 我 认为 主要 的 门槛 来 自 于 两 个 方面 。 


一 方面 ， 深 度 学 习 是 非常 典型 的 计算 密集 型 的 应 用 领域 ， 家 用 PC 机 通常 是 无 法 有 效 胜任 一 个 完整 而 可 靠 的 深度 学 习 应 用 的 
(作为 初级 实验 或 者 “玩具 的 除外 ) 。 不 过 现在 随 着 CPU 的 计算 速度 逐步 加 快 ， 以 及 GPU 应 用 的 不 断 普及 ， 这 方面 的 门槛 在 慢 
慢 地 降低 。 


另 一 方面 ， 深 度 学 习 从 其 解决 问题 的 根本 理论 方面 需要 比较 深厚 和 扎实 的 数学 基础 ， 尤 其 是 高 等 数学 、 线 性 代数 、 泛 函 分 析 
及 其 延伸 学 科 的 基础 ， 这 就 使 得 很 多 高 等 数学 相关 基础 不 好 的 朋友 学 习 起 来 非常 吃力 。 当 然 ， 这 一 方面 目前 可 以 走 的 捷径 也 不 是 
没有 ， 我 们 可 以 通过 现成 的 框架 (比如 TensotFlow、Torch、Caffe 或 Theano 等 ) 来 搭建 环境 ， 并 用 简单 的 代码 或 模型 描述 文件 来 
组 建 一 个 相对 完整 的 神经 行 学 习 和 分 类 应 用 。 


除 此 之 外 ， 像 Caffe 还 个 让 大 家 把 已 经 训练 好 的 模型 放 在 上 面 做 共享 的 社 群 。 在 
模型 训练 中 ， 前 面 大 量 耗 时 的 分 析 和 建 模 工 作 以 及 训练 后 得 到 的 最 宝贵 的 模型 成 果 就 可 以 浓缩 并 沉淀 为 一 个 可 下 载 的 模型 描述 文 
件 ， 里 面 是 网 络 的 节点 权重 和 拓扑 结构 信息 。 这 种 社 群 化 的 方式 会 让 很 多 原本 没有 太 好 训练 条 件 的 朋友 有 了 可 以 学 习 和 借鉴 的 对 
象 ， 也 有 了 可 以 游乐 和 尝试 的 空间 。 这 些 模型 需要 在 其 各 目的 授权 使 用 协议 下 合理 使 用 ， 有 的 是 允许 进行 商业 应 用 和 改动 ， 而 有 
的 则 不 可 以 ， 这 一 点 需要 注意 。 在 下 载 后 ， 我 们 可 以 对 其 进行 Fine Tuning， 也 就 是 进行 细节 调 优 或 改进 性 训练 ， 使 得 这 些 模 型 可 
以 在 自己 需要 的 环境 和 条 件 下 更 好 地 工作 。 不 过 这 个 地 方 还 是 有 一 个 门槛 ， 对 于 很 多 数学 能 力 欠 佳 的 工程 师 来 说 ， 不 容易 迈 过 
去 ， 那 就 是 训练 和 调 优 中 的 方向 性 问题 。 一 旦 出 现 召 回 率 和 准确 率 不 再 提高 ， 或 者 性 能 等 问题 ， 往 往 会 找 不 到 改进 的 方向 和 方 
法 ， 这 是 需要 扎实 的 数学 基础 和 深度 学 习 领 域 的 实践 经 验 来 解决 的 。 


我 们 这 本 书 的 宗旨 很 简单 ， 就 是 希望 通过 聊天 和 讲 故 事 的 方式 ， 中 以 上 水 平 的 数学 知识 把 大 家 一 步 一 步 地 带 入 深度 学 


借 高 
习 的 领域 。 只 要 大 家 在 阅读 本 书 的 时 候 保 持 一 点 点 耐心 ， 即 便 没 有 高 等 数学 知识 的 朋友 ， 通 过 努力 也 一 样 可 以 基本 掌握 深度 学 习 
的 应 用 技巧 。 请 不 要 犹 聊 ， 跟 我 来 吧 ! 
本 书 特色 
本 书本 着 “平民 ”起 点 ， 从 “ 零 ” 开 始 的 初衷 ， 介 绍 深度 学 习 的 技术 与 技巧 ， 逐 层 铺 热 ， 把 微 积 分 、 梯 度 等 知识 重点 化 整 为 
零 ， 把 学 习 曲 线 最 大 程度 地 拉平 ， 让 读者 有 良好 的 代入 感 和 亲近 感 。 


本 书 用 漫画 插图 来 调节 阅读 气氛 ， 并 且 在 每 个 讲解 的 部 分 都 有 对 比 和 实例 说 明 ， 相 信 每 位 读者 都 能 感受 到 非常 好 的 阅读 平滑 
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读者 对 象 
. 对 深度 学 习 有 兴趣 但 数学 基础 弱 的 开发 人 员 与 架构 师 
. 科研 院 所 的 研究 人 员 
. 对 深度 学 习 有 兴趣 的 大 学 生 、 研 究 生 


其 他 深度 学 习 爱 好 者 ， 如 产品 经 理 、 投 资 人 、 管 理 者 等 


如 何 阅读 本 书 


本 书 基 本 独立 成 册 ， 适 用 于 零 基 础 的 初学 者 ， 但 仍 建议 以 本 书 姊妹 篇 《白话 大 数据 与 机 器 学 习 》 为 引导 读物 。 本 书 共 分 三 


Bh, #13. 
基础 篇 (第 1 ~ 3 章 ) ， 介 绍 一 些 非常 基础 的 概念 铺垫 ， 以 便 了 解 背 景 。 


原理 与 实践 篇 (第 4~ 8 章 ) ， 介 绍 老牌 的 深度 学 习 网 络 的 数学 原理 和 工程 实现 原理 。 尤 其 是 第 4 章 ， 如 果 读 者 能 基本 读 懂 ， 
后 面 的 网 络 实现 层面 的 问题 基本 都 可 以 迎刃而解 。 


扩展 篇 (第 9~ 13 章 ) ， 介 绍 一 些 网 络 的 变种 和 一 些 较 新 的 网 络 特性 。 
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其 实 当 你 把 这 本 书 看 完 后 ， 就 会 知道 这 种 技术 的 底层 原理 虽然 略 显 复 杂 ， 但 是 在 框架 逐步 成 熟 以 及 开源 项 目 日 益 增 加 的 情况 
下 ， 对 于 应 用 市 场 层 面 的 技术 人 员 来 说 ， 真 正 要 做 的 工作 已 经 不 是 书写 复杂 的 算法 了 一 一 这 些 都 已 经 被 很 好 地 封装 到 内 和 聚 性 极 高 
的 框架 中 ， 而 且 开放 了 友好 的 接口 和 足够 多 的 参数 给 使 用 者 做 调整 。 这 样 一 来 ， 最 重要 的 工作 反而 是 海量 样本 的 低 成 本 获取 和 丰 
富 的 计算 资源 的 获取 。 因 此 从 这 个 角度 来 看 ， 我 可 以 负责 任 地 说 ， 深 度 学 习 领 域 的 门槛 在 一 定 程度 上 应 该 说 比 传统 机 器 学 习 的 还 
要 低 。 当 读 完 这 本 书 时 ， 你 就 会 发 现 ， 深 度 学 习 真 的 不 难 。 


D 


勘误 和 支持 


由 于 笔者 的 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错 误 或 者 不 准确 的 地 方 ， 是 请 读者 批评 指正 。 如 果 你 有 更 多 的 宝 
贵 意见 ， 欢 迎 扫描 下 方 的 二 维 码 ， 关 注 奇 点 大 数据 微 信 公众 号 qddata 和 我 们 进行 互动 讨论 。 当 然 ， 在 公众 号 的 消息 中 你 也 可 以 找 
到 书 中 的 代码 地 址 和 QQ 讨论 群 305232547 的 信息 。 本 书 提 供 的 所 有 代码 也 将 放 
在 : https://github.com/azheng333/DeepLearningAndTensorFlow. 


ool 


同时 ， 你 也 可 以 通过 邮箱 77232517(@qq.com 联 系 到 我 ， 期 待 能 够 得 到 大 家 的 真挚 反馈 ;在 技术 之 路 上 互 鬼 共 进 。 


在 此 ， 感 谢 辽 宁 工 程 大 学 副教授 (海归 博士 后 ) 常 改 博士 、 山 东 交 通 学 院 理 学 院 讲 师 许 文 杰 博士 、 许 昌 学 院 信 息 工程 学 院 讲 


师 姚 丹 玉 博士 在 审 校 工作 方面 的 支持 与 帮助 ， 以 及 深圳 华为 技术 有 限 公司 的 万 娟 女士 在 插画 方面 对 本 书 的 大 力 支 持 。 


[1] 消息 来 源 于 网 易 科技 http://tech.163.com/17/0104/08/C9U3JUON00098GJ5.html， 有 删改 。 


基础 篇 


Boi TensotrFlow 框 架 特性 与 安装 


Ble ”机 器 学 习 是 什么 


机 器 学 习 是 一 个 跟 “ 大 数据 ”一 样 近 几 年 格外 火 的 词汇 。 我 们 在 了 解 深度 学 习 之 前 ， 还 是 有 必要 了 解 和 认识 机 器 学 习 这 个 词 
的 。 机 器 学 习 究 竟 是 一 个 什么 过 程 或 者 行为 呢 ? 


机 器 学 习 一 一 我 们 先 想 想 人 类 学 习 的 目的 是 什么 ? 是 掌握 知识 、 擎 握 能 力 、 擎 握 扩 15， 最 终 能 够 进行 比较 复杂 或 者 高 要 求 
的 工作 。 那 么 类 比 一 下 机 器 ， 我 们 让 机 器 学 习 ， 不 管 学 习 什 么 ， 最 终 目 的 都 是 让 它 独立 或 至 少 半 独 立地 进行 相对 复杂 或 者 高 要 求 
的 工作 。 我 们 在 这 里 提 到 的 机 器 学 习 更 多 是 让 机 器 帮助 人 类 做 一 些 大 规模 的 数据 识别 、 分 抠 、 规 律 总 结 等 人 类 做 起 来 比较 化 时 间 
的 事情 。 这 个 残 是 机 器 学 习 的 本 质 性 目的 。 


在 人 类 友 展 的 历史 长 河中 ， 机 器 逐步 代 蔡 人 的 生产 工作 是 一 个 不 可 逆转 的 趋势 一 一 从 原始 人 的 刀 耕 火种 ， 氏 族 部 藻 大 量 原 
始 人 共同 使 用 极为 原始 的 工具 共同 狩猎 ， 到 后 来 随 着 生产 力 友 展 和 工种 分 化 的 不 断 相互 刺激 ， 越 来 越 多 的 工具 出 现 ， 代 蔡 了 原本 
生产 所 需要 的 众多 人 工 。 


在 近 现 代 ， 尤 其 是 第 一 次 和 第 二 次 工业 革命 之 后 ， 化 石 能 源 驱 动 的 高 能 量 的 机 器 骨 一 次 在 更 多 的 领域 取代 人 力 、 畜 力 ， 大 大 
改善 了 人 类 的 生产 效率 。 


在 信息 革命 之 后 ， 随 着 计算 机 的 计算 能 力 增强 ， 以 及 在 计算 机 算法 领域 新 理论 、 新 技术 的 逐渐 友 展 ， 机 器 也 逐渐 代 蔡 人 ， 参 
与 到 更 多 的 市 有 “一定 的 智能 性 ”的 信息 分 拣 与 识别 的 工作 中 来 。 这 里 面 我 们 看 重要 提 一 下 这 个 “一 定 的 智能 性 ”。 


算法 这 种 东西 在 最 初出 现 的 时 候 是 一 种 确定 性 的 机 器 指令 执行 序列 ， 也 训 ® 是 说 ， 机 器 需要 怎么 做 是 早 在 程序 一 开始 束 设 定好 
的 。 虽 然 说 在 程序 执行 的 过 程 中 可 以 依靠 有 限 的 参数 对 程序 执行 过 程 所 涉及 的 对 象 、 执 行 次 数 、 执 行 分 支 条 件 等 进行 设 定 ， 但 是 
基本 行为 逻辑 已 经 大 抵 确定 。 在 这 个 过 程 中 ， 机 器 一 一 计算 机 是 非常 被 动 的 ， 它 老 老实 实地 严格 执行 程序 员 赋 予 它 的 指令 执行 
序列 ,没有 任何 “学 习 ” 的 行为 。 这 也 没 办 法 ， 因 为 最 开始 的 图 灵机 模型 在 设计 的 时 候 束 是 期 望 计算 机 以 这 种 万 式 工作 的 。 

而 机 器 学 习 这 个 领域 的 思路 融 与 刚才 我 们 所 说 的 这 样 一 个 形式 有 很 大 的 区 别 。 我 们 以 有 监督 学 习 的 过 程 为 例 ， 例 如 有 一 个 分 


类 器 ， 可 以 将 输入 的 邮件 分 拒 为 “普通 邮件 ”和 “垃圾 邮件 ”两 个 类 别 。 但 是 对 于 垃圾 邮件 的 判断 标准 不 是 在 程序 运行 伊始 给 出 
的 ,而 是 在 给 予 分 类 器 大 量 坪 圾 邮件 后 ， 由 分 类 器 对 垃圾 邮件 样本 的 各 种 特征 进行 统计 和 归纳 ， 进 而 得 到 的 。 


d X 


普通 邮件 垃圾 邮件 


在 这 个 训练 过 程 中 ， 给 予 分 类 器 的 大 量 被 标注 为 垃圾 邮件 的 邮件 ， 称 为 训练 样本 (training sample) 。 分 类 器 对 垃圾 邮件 
样本 的 特征 进行 统计 和 归纳 的 过 程 称 为 训练 (traning) 。 忆 结 出 的 判断 标准 ， 我 们 称 为 分 类 模型 。 与 此 同时 ， 我 们 还 会 拿 其 他 
一 些 “ 普 通 邮 件 ” 和 “垃圾 邮件 ”给 予 分 类 器 ， 让 它 坚 试 根据 刚刚 总结 好 的 分 类 模型 进行 分 类 ， 看 看 它 分 类 的 正确 性 是 否 确实 具 
有 泛 化 性 (generalization) ， 这 个 步骤 我 们 称 为 验证 (validation) 。 这 个 过 程 主要 是 为 了 验证 从 训练 样本 中 归纳 总 结 出 来 的 
数据 关系 是 否 能 够 迁移 。 在 此 之 后 ， 我 们 还 会 使 用 一 定量 的 “普通 邮件 ”和 ORBE ZZ (testing) 这 个 模型 的 识别 能 
力 ， 看 看 是 不 是 在 我 们 业务 允许 的 沁 围 内 。 这 是 一 个 基本 完整 的 有 监督 学 习 (supervised learning) 的 学 习 过 程 。 


其 他 的 有 监督 学 习 的 场景 也 极为 类 似 ， 都 是 基于 训练 样本 做 训练 和 使 用 验证 数据 集 验 证 。 在 这 个 过 程 中 我 们 不 难看 出 ， 最 后 

整个 分 类 器 工具 投入 生产 环境 对 外 提供 服务 的 工作 万 式 不 是 我 在 程序 里 事先 写 好 的 ， 而 是 先 对 给 予 的 样本 进行 忌 结 得 出 分 类 规则 
(标准 ) ， 之 后 根据 这 个 规则 进行 分 类 操作 。 这 是 一 个 非常 形象 的 “机 器 学 习 ” 的 过 程 ， 它 在 这 个 过 程 中 目 己 学 会 了 怎么 样 进行 

正确 地 区 分 事物 。 这 是 不 是 很 有 趣 呢 ? 

机 器 学 习 从 学 习 的 种 类 来 况 ， 最 弟 见 的 我 们 习惯 分 作 两 种 ， 一 种 叫 无 监督 学 习 (unsupervised learning) ， 一 种 叫 有 监督 
学 习 (supervised learning) 上。 所 谓 “ 无 监督 学 习 ”， 是 指 人 们 在 获得 训练 的 向 量 数据 后 在 没有 标签 的 情况 下 尝试 找 出 其 内 
部 纺 谷 关系 的 一 种 挖掘 工作 ， 这 个 过 程 中 使 用 者 除了 可 能 要 设置 一 些 必要 的 超 参 数 (hyper-parameter) 以 外 ， 不 用 对 这 些 样 
本 做 任何 的 标记 甚至 是 过 程 干 预 ， “有 监督 学 习 ” 与 此 不 同 ， 每 一 个 样本 都 有 着 明确 的 标签 ， 最 后 我 们 只 是 要 忆 结 出 这 些 训练 样 
本 疝 量 与 标签 的 映射 天 系 。 所 以 这 在 这 两 种 方式 下 ， 处 理 的 逻辑 有 很 大 的 区 别 ， 初 学 的 朋友 需要 格外 注意 。 


[1] 除 此 之 外 还 有 半 监 督学 习 (semisupetvised learning) 和 强化 学 习 (reinforcement learning) 等 种 类 。 


1.1 


$ 


聚 类 (clustering) 是 一 种 典型 的 “无 监督 学 习 ”， 是 把 物理 对 象 或 抽象 对 象 的 集合 分 组 为 由 彼此 类 似 的 对 象 组 成 的 多 个 类 
的 分 析 过 程 。 


聚 类 这 种 行为 我 们 不 要 党 得 很 神秘 ， 也 不 要 嘻 得 这 个 东西 是 机 器 学 习 所 独 有 的 ,恰恰 相反 ， 聚 类 的 行为 本 源 还 是 人 自身。 我 
们 学 习 的 所 有 的 数据 挖掘 或 者 机 器 学 习 的 算法 或 者 思想 的 来 源 都 是 人 类 上 自己 的 思考 方式 ， 只 不 过 我 们 把 它 教 给 机 器 代 芳 ， 让 机 器 
成 为 我 们 肝 体 和 能 力 的 延伸 ， 而 不 是 让 它们 蔡 我 们 做 创造 和 思考 。 


聚 类 是 一 种 什么 现象 呢 ? 我 们 人 类 在 认识 客观 世界 的 过 程 中 其 实 一 直 遇 到 容量 性 的 问题 ， 我 们 遇 到 的 每 一 棵 树 、 每 一 沙 伦 、 
一 只 昆虫 、 每 一 头 动物 、 每 一 个 人 、 每 一 栋 建 筑 .…… 每 个 个 体 乙 间 其 实 都 不 同 ， 有 的 差距 还 相当 大 。 那 么 我 们 人 在 认 台 和 记忆 
这 些 客观 事物 的 过 程 中 融会 异 单 痛 杏 ， 因 为 量 实在 是 大 到 无 法 承受 的 地 步 。 


因此 人 类 才 会 企 “ 自 底 向 上 ”的 认识 世界 的 过 程 中 “偷懒 ”性 地 选择 了 归纳 归 类 的 方式 ， 注 意 “偷懒 ”的 这 种 方式 是 人 类 与 
生 俱 来 的 方法 。 


小 时 候 ， 我 们 被 父母 用 看 图 说 话 的 方式 来 教 嘱 呀 学 语 束 有 过 类 似 的 体会 了 ， 图 片上 画 了 一 只 猴子 ， 于 是 我 们 丈 认 识 了 ， 这 是 
一 只 猴子 ; 图 片上 画 了 一 辆 汽车 ， 于 是 我 们 丈 了 解 了 ， 这 是 一 辆 汽车 .……. 当 我 们 上 街 或 者 去 动物 园 的 时 候 骨 看， 猴子 也 不 是 画 上 
的 猴子 ， 而 且 众 多 猴子 之 间 也 长 得 各 式 各 样 ， 每 个 都 不 同 ， 我 们 会 把 它们 当成 一 个 一 个 的 新 事物 去 认识 吗 ? 我 们 看 汽车 也 同样 ， 
大 小 、 颜 色 、 样 式 ， 甚 至 喇叭 的 声音 也 是 形形色色 、 五 花 八 |]， 它 们 在 我 们 眼 里 是 一 个 个 新 的 事物 吗 ? 不 ,它们 都 还 是 汽车 。 这 
些 事 物 之 间 确 实 有 所 不 同 ， 但 是 它们 给 我 们 的 认 知 市 来 了 很 大 的 困扰 吗 ? 并 没有 。 我 们 无 论 如 何 也 不 会 把 猴子 和 汽车 当成 一 类 事 
物 去 认 知 的 ， 猴 子 彼此 之 间 是 不 同 ， 但 是 体格 、 毛 故 、 行 为 举止 ， 种 种 形态 让 我 们 认为 这 些 不 同 种 类 的 猴子 都 还 是 猴子 一 个 大 类 
的 动物 ， 别 说 是 和 汽车 混为一谈 ， 丈 是 跟 狗 、 马 、 熊 这 些 哺 疙 动物 也 能 轻易 地 分 开 。 

人 类 天 生 具 备 这 种 归纳 和 忆 结 的 能 力 ， 能 够 把 认 知 的 相似 事物 放 到 一 起 作为 一 类 事物 ， 它 们 之 间 可 以 有 彼此 的 不 同 ,但 是 有 
一 个 我 们 心里 的 “限度 ”， 只 要 在 这 个 限度 内 ,特征 稍 有 了 区别 并 无 大 碍 ， 它 们 仍然 还 是 这 一 类 事物 。 


在 这 一 类 事物 的 内 部 ， 同 样 有 这 种 现象 ， 一 部 分 个 体 之 间 比 较 相近 ， 而 另 一 部 分 个 体 之 间 比 较 相 近 ， 我 们 人 还 能 够 明显 认 知 
到 产 别 ,那么 大 类 别 又 可 以 细 分 为 小 类 别 进行 认 知 。 比 如 汽车 直观 从 样子 上 可 以 分 成 小 轿车 、 卡 车 、 面 包车 等 种 类 ， 虫 子 们 也 被 
人 轻易 地 从 外 形 上 区 别 为 《 虫 、 爬 虫 、 毛 毛虫 .…… 


在 没有 人 特意 教 给 我 们 不 同 小 种 群 的 称谓 与 特性 乙 前 ， 我 们 目 然 具备 的 这 种 任 信 主观 认 知 的 能 特征 形态 的 相同 或 近 
似 的 划 在 一 个 概念 下 ， 特 征 形态 不 同 的 划 在 不 同 概念 下 ， 这 本 身 融 是 “ 聚 类 ”的 思维 方式 。 
比较 单 用 的 聚 类 算法 有 K-Means、DBSCAN 等 几 种 ， 基 本 思路 都 是 利用 每 个 向 量 之 间 的 “距离 - 空间 中 的 欧 氏 距离 或 


曼哈顿 距离 ， 从 远近 判断 是 否 从 属于 同一 类 别 。 假 如 有 三 个 一 维 样 本 : 一 个 180、 一 个 179、 一 个 150， 如 果 这 三 个 向 量 要 分 
成 两 类 的 话 ， 应 该 是 180 和 179 这 两 个 分 在 一 个 类 别 ，150 是 另 一 个 类 别 。 因 为 180 和 179 的 距离 为 1， 而 150 距 离 180 与 179 分 别 
为 30 和 29 个 单位 一 一 非常 远 ， 束 是 从 肉眼 感官 上 来 看 也 是 这 样 。 用 机 器 来 做 学 习 的 话 ， 它 也 能 够 通过 算法 自动 去 感知 到 这 些 辣 
量 之 间 的 距离 ， 然 后 将 那些 彼此 之 间 靠 得 近 的 分 在 一 起 ， 以 区 别 于 其 他 类 艇 。 


在 用 机 器 做 聚 类 学 习 的 时 候 ， 我 们 每 种 算法 都 对 应 有 相应 的 计算 原则 ， 可 以 把 输入 的 各 种 看 上 去 役 此 “相近 ”的 向 量 分 在 一 
个 群 组 中 。 然 后 下 一 步 ， 人 们 通常 更 有 针对 性 地 去 研究 每 一 组 聚 在 一 起 的 对 象 所 拥有 的 共性 以 及 那些 远离 各 个 群 组 的 孤立 点 
一 一 这 种 孤立 点 研究 在 和 刑侦、 特殊 疾病 排查 等 方面 都 有 应 用 。 


在 这 个 过 程 中 ， 从 获得 到 具体 的 样本 向 量 ， 到 得 出 聚 类 结果 ， 人 们 是 不 用 进行 干预 的 ， 这 殊 是 “ 非 监 督 ”一 词 的 由 来 。 


1.2 回归 


回归 是 一 种 解 题 方法 ， 或 者 说 “学 习 ” 廊 法， 也 是 机 器 学 习 中 比较 重要 的 内 容 。 


回归 的 英文 是 regression ， 单 词 原 型 regress 的 意思 是 “ 回 退 ， 退 化 ， 倒 退 ”。 其 实 regression 一 一 回归 分 析 的 意思 是 借用 
里 面 “ 倒 退 ， 倒 推 ” 的 含义 。 简 单 说 就 是 “由 果 索 因 ” 的 过 程 ， 是 一 种 归纳 的 思想 一 一 当 我 看 到 大 量 的 事实 所 呈现 的 样 态 ， 我 
推断 出 原因 或 客观 缠 合 的 关系 是 如 何 的 ; 当 我 看 到 大 量 的 观测 而 来 的 向 量 (数字 ) 是 菏 种 样 丰 ， 我 设计 一 种 假说 来 摘 述 它们 之 间 
强 含 的 天 系 是 如 何 的 。 


在 机 器 学 习 领 域 ， 最 常用 的 回归 有 了 两 大 类 


类 是 线性 回归 ， 一 类 是 非 线 性 回归 。 
所 谓 线性 回归 ， 融 是 在 观察 和 归纳 样本 的 过 程 中 认为 向 量 和 最 终 的 函数 值 呈 现 线性 的 关系 。 而 后 设计 这 种 关系 为 : 
y=f (x) =wxtb 


这 里 的 w 和 x 分 别 是 1xn 和 nx1 的 和 矩阵 ，wb 则 指 的 是 这 两 个 矩阵 的 内 积 。 具 和 象 一 点 说 ， 例 如， 如果 你 在 一 个 实验 中 观察 到 一 
名 病 患 的 几 个 指标 呈现 线性 天 系 (注意 这 个 是 大 前 提 ， 如 果 你 观察 到 的 不 是 线性 关系 而 用 线性 模型 来 建 模 的 话 ， 会 得 到 太 拟 合 的 
结果 ) 。 拿 到 的 x 是 一 个 5 维 的 癌 量 ， 分 别 代 表 一 名 患者 的 年 龄 、 身 高 、 体 重 、 血 压 、 血 脂 这 几 个 指标 值 ，y 标 答 是 描述 他 们 血糖 
程度 的 指标 值 ，x 和 y 都 是 观测 到 的 值 。 在 拿 到 大 量 样 本 〈 融 是 大 量 的 x 和 y) 后 ， 我 猜测 向 量 (FR, SS, OE, 血压， 血脂) 
和 与 其 有 关联 关系 的 血糖 程度 y 值 有 这 样 的 关系 ;: 


y=w X FR +w X 身高 +W3X WE +w,Xx 血压 十 w;X mAg +b 
那么 就 把 每 一 名 患者 的 【年 龄 ， 身 高 ， 体 重 ， 血 压 ， 血 脂 ) 具体 向 量 值 代入 ， 并 把 其 血糖 程度 y 值 也 代入 。 这 样 一 来 ， 在 所 
有 的 患者 数据 输入 后 ， 会 出 现 一 系列 的 六 元 一 次 方程 ， 未 知 数 是 w1 ~ ws 和 b 一 一 也 就 是 w 短 阵 的 内 容 和 偏 置 b 的 内 容 。 而 下 面 要 


做 的 事情 束 是 要 对 w 和 矩阵 的 内 容 和 偏 置 b 的 内 容 求 出 一 个 最 “合适 ”的 解 来 。 这 个 “合适 ”的 概念 束 是 要 得 到 一 个 全 局 学 围 内 由 
f (x) 映射 得 到 的 y 和 我 真实 观测 到 的 那个 y 的 差距 加 和 ， 写 出 来 是 这 种 方式 : 


iT 
Loss = » | wx, +b- y. 
i=] 


怎么 理解 这 个 Loss 的 含义 呢 ? 右面 的 > 表示 加 和 ， 相 当 于 做 一 个 一 个 循环 ， 刘 循环 变量 ， 从 1 做 到 n， 履 盖 训练 集 当中 的 每 
一 个 样本 向 量 。 加 和 的 内 容 是 wxi+b 和 y 的 差 值 ， 每 一 个 训练 向 量 x 在 通过 我 们 刚刚 假设 的 关系 f (x) =wx+ b 映 射 后 与 实际 观测 
值 y 的 差距 值 。 取 绝对 值 的 含义 就 是 指 这 个 差距 不 论 是 比 观 测 值 大 还 是 比 观测 值 小 ， 都 是 一 样 的 差距 。 将 全 局 范围 内 这 n 个 差距 
值 都 加 起 来 ， 得 到 所 谓 的 总 差距 值 ， 就 是 这 个 Loss 的 含义 。 那 么 显而易见 ， 如 果 映 射 关系 中 w 和 b 给 的 理想 的 话 ， 这 个 差距 值 应 
该 是 0， 因 为 每 个 x 经 过 映射 都 “ 严 丝 合 颖 地 和 观测 什 一 致 了 一 这 种 状况 太 理想 了 ， 在 实际 应 用 中 是 见 不 到 的 。 不 过 ，Loss 
越 小 就 说 明 这 个 映射 关系 描述 越 精 确 ， 这 个 还 是 很 直观 的 。 那 么 想 办 法 把 Loss 描 述 成 : 

Loss=f (w, b) 

再 使 用 相应 的 方法 找 出 保证 Loss 尽 可 能 小 的 w 和 b 的 取 值 ， 就 算是 大 功 告 成 了 。 我 们 后 面 会 讲 计算 机 怎么 来 求 这 一 类 的 解 
放心 ， 有 办 法 的 ， 即 便 不 用 联 立 解 方程 。 一 旦 得 到 一 个 误差 足够 小 的 w 和 b， 并 能 够 在 验证 用 的 数据 集 上 有 满足 当前 需求 的 
精度 表现 后 就 可 以 了 。 例 如 ， 预 测 病 患 的 血糖 误差 是 取 误 差 平均 小 于 等 于 0.3 为 容忍 上 线 ， 训 练 后 在 验证 集 上 的 表现 是 误差 平均 
为 0.2， 那 就 算是 合格 了 。 


请 注意 ， 在 传统 的 机 器 学 习 中 回归 、 分 类 这 些 算法 里 都 有 一 个 要 把 获取 到 的 数据 集 分 成 训练 集 和 验证 集 的 过 程 。 用 训 | 练 集 数 
据 来 做 训练 ， 归 纳 关 系 ; 用 验证 集 数 据 来 做 验证 ， 避 人 免 过 拟 合 现象 。 如 果 你 不 太 明 日 过 拟 合 是 什么 意思 也 没关系 ,后 面 我 们 会 讲 
的 ,不 必 着 急 。 数 据 集 的 划分 三 七 开 也 可 以 ， 二 八 开 也 没什么 不 行 ， 现 在 生产 环境 中 大 致 用 的 都 是 这 样 一 种 比例 ， 反 正 训 练 集 一 
定 用 数据 多 的 那 部 分 。 


由 于 这 种 假设 中 输入 的 x 向 量 与 标签 值 y 是 一 种 线性 关系 y=f (x) =wx+b， 所 以 才 叫 做 绪 性 回归 。 最 常见 的 形式 是 


y=f (x) =ax+b 这 种 形式 ， 也 融 是 x 是 一 个 一 维 癌 量 ，w 也 是 一 个 一 维 癌 量 的 情况 。 如 果 是 呈现 其 他 天 系 (比如 指数 天 系 、 对 数 
RA) ， 那 么 这 种 时 候 你 用 线性 回归 去 做 拟 合 会 友 现 它 的 损失 函数 非 昔 大 ， 在 验证 集 上 表现 出 来 的 误差 也 非 单 大 ， 这 是 一 种 从 拟 
合 现 象 ， 我们 后 面 同样 会 讲 ， 大 家 先 记 住 这 样 一 个 名 词 。 


非 绪 性 回归 类 中 ， 在 机 器 学 习 领 域 应 用 最 多 的 当 属 逻辑 回归 。 它 和 续 性 回归 都 叫 回归 ， 但 是 逻辑 回归 看 上 去 更 像 分 类 。 我 们 
先 企 回归 这 一 节 提 一 下 这 种 回归 的 工作 方式 。 与 前 面 我 们 襄 的 线性 回归 不 同 ， 在 这 种 模型 中 观察 者 假设 的 前 提 是 y 只 有 两 种 值 : 
一 种 是 1， 一 种 是 0， 或 者 说 “是 ”或 “人 否 ” 的 这 种 判断 。 


y — f(x) — | 4. e (wrt) 


这 里 面 的 wx+ b 和 前 面 线性 回归 中 所 说 的 wx+b 是 一 个 概念 ， 都 是 指 一 个 w 和 矩阵 和 x 做 了 内 积 再 和 偏 置 b 做 了 加 和 。 如 果 设 
z=wx+b， 那 么 这 个 回归 的 分 类 模型 表达 式 就 可 以 改写 为 : 


1 二 e 


PETER: 


ibm, "i 一 个 多 维 的 x 经 过 这 样 两 次 映射 ， 最 后 投射 在 y 上 是 一 个 取 值 只 有 1 和 0 二 项 分 布 。 也 就 是 我 们 前 面 说 的 
产生 了 一 个 “是” 或 “ 否 ”的 分 类 , 


训练 的 过 程 跟 音 通 线性 回归 也 是 一 样 的 ， 只 不 过 损失 函数 的 形式 不 同 。 但 是 ， 它 的 损失 函数 的 含义 仍旧 是 表示 这 种 拟 合 残 郑 
己 待 定 系 数 的 天 系 ， 并 通过 相应 的 手段 进行 迭代 式 的 优化 ， 最 后 通过 逐步 调整 待定 系数 减 小 残 奔 。 风 辑 回 归 的 表达 式 的 定义 本 源 


是 来 自 于 伯 努 利 分 布 ( 注 : 伯 努 利 分 布 ，P (n) =p" (1-p) 1, ) 的 ， 后 面 我 们 也 会 有 相对 详细 的 说 明 ， 这 里 先 做 一 个 感性 
认识 。 


类 


1.3 


a> 


分 类 是 机 器 学 习 中 使 用 的 最 多 的 一 大 类 算法 ， 我 们 通 单 也 喜欢 把 分 类 算法 叫做 “分 类 器 - 


这 个 说 法 其 实 也 非常 形象 ， 在 我 们 看 来 ， 这 束 是 一 个 黑 盒 子 ， 有 个 入 口 ， 有 个 出 口 。 我 们 在 入 口 丢 进去 一 个 “样本 ”， 在 出 
期 望 得 到 一 个 分 类 的 “标签 ”。 比 如 ， 一 个 分 类 器 可 以 进行 图 片 内 容 的 分 类 标签 ,我们 在 “入 口 ” 丢 进去 一 张 老虎 的 照 厂 ， 
在 “出 口 ”得 到 “老虎 ”这 样 一 个 摘 述 标 尝 ;而 当 我 们 在 “人 入口” 丢 进 去 一 张 《 机 的 照 请 ， 在 “出 口 ” 得 到 “飞机 ”这 样 一 个 摘 


述 标 等 ， 这 融 是 一 个 分 类 器 最 为 基本 的 分 类 工作 过 程 。 


一 个 分 类 器 模型 在 它 诞生 (初始 化 ) 的 时 候 其 实 是 不 具备 这 种 功能 的 ， 只 有 通过 给 予 尼 大 量 的 图 片 以 及 图 片 所 对 应 的 标签 分 
类 ， 让 它 目 己 进行 充分 地 忌 结 和 归纳 ， 才 能 具备 这 样 一 种 能 力 。 


在 刚刚 看 到 的 逻辑 回归 这 种 方式 中 ， 我 们 已 然 看 到 了 一 些 新 侈 。 人 逻辑 回归 和 普通 的 线性 回归 不 同 ， 它 的 拟 合 是 一 种 非 线 性 的 
方式 。 而 最 终 输 出 的 “标签 值 ”虽然 是 一 种 实数 变量 ， 而 最 终 分 类 的 结果 却 期 望 是 一 种 确定 的 值 “是 ” (1) 或 “不 
是 ” (0) 。 其 他 各 种 分 类 器 的 输出 通常 也 是 离散 的 变量 ,体现 出 来 也 多 是 非 线 性 的 分 类 特点 。 
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逻辑 天 系 ， 使 得 远 辑 更 为 合理 。 而 合理 与 售 的 判断 也 非 昔 明确 ， 那 残 是 名 回 率 和 精确 率 两 个 捐 标 一 一 名 回 率 指 的 是 检索 出 的 相 
天 样本 和 样本 库 (URE) 中 所 有 的 相关 样本 的 比率 ， 衡 量 的 是 分 类 器 的 查 全 率 。 精 确 率 是 检索 出 的 相关 样本 数 与 检索 出 的 
样本 总 数 的 比率 ， 衡 量 的 是 分 类 器 的 查 准 率 。 


具体 来 说， 各 如 有 一 个 1000 个 样本 的 训练 集 ， 是 1000 张 照片 ， 里 面 有 200 张 是 猫 ，200 张 是 狗 ，600 张 是 兔子 ， 一 共 分 成 三 


类 。 我 们 将 每 个 照片 向 量化 后 ， 加 上 标签 : 
=. qu F 
p Ug a e 
p P F 


这 相当 于 一 个 x 和 y 的 对 应 关系 ， 把 它们 输入 到 训练 集 去 训练 (但 是 这 个 地 方 的 标签 0、1、2 并 不 是 实数 定义 ， 而 是 离散 化 的 
标签 定义 ， 通 剃 习 惯用 one-hot 独 热 编码 的 方式 来 表示 ) 。 经 过 多 轮训 练 之 后 ， 分 类 器 将 逻辑 天 系 调整 到 了 一 个 相对 稳定 的 程 
度 ， 然 后 用 这 个 分 类 器 再 对 这 200 张 猫 ，200 张 狗 ，600 张 兔子 图 片 进行 分 类 的 时 候 ， 友 现 : 


200 张 猫 的 图 片 中 ， 有 180 张 可 以 正确 识别 为 猫 ， 而 有 20 张 误 判 为 狗 。 
200 张 狗 的 图 片 可 以 全 部 正确 判断 为 狗 。 
600 张 兔子 的 图 片 中 ， 有 550 张 可 以 正确 识别 为 兔子 ， 还 有 30 张 被 误 判 为 猫 ，20 张 误 判 为 狗 。 


你 可 不 要 嘻 得 奇怪 ， 在 所 有 的 机 器 学 习 或 者 深度 学 习 训练 的 工程 中 ， 误 判 率 几乎 是 没有 办 法 消炎 的 ， 只 能 用 尽 可 能 科学 的 手 
段 将 误 判 率 降 低 。 不 要 太 难 为 机 器 ， 其 实 人 都 没 办 法 保证 所 有 的 信息 100%J 正 确 判断 ， 尤 其 是 在 图 片 大 小 、 图 片 清 蜥 程度、 光线 
明暗 悬殊 的 情况 下 ， 不 是 吗 ? 那 束 更 别 说 机 器 了 ， 它 更 做 不 到 |。 


我 们 还 是 来 解释 召回 率 和 精确 率 的 问题 。 就 刚才 这 个 例子 来 说 ,一共 1000 张 图 片 中 ，200 张 是 猫 ， 但 是 只 能 正确 识别 出 180 
张 ， 所 以 猫 的 召回 率 是 180=200=90%，600 张 兔子 中 正确 识别 550 张 ， 所 以 兔子 的 召回 率 是 550=-600x91.7%。 而 在 1000 中 图 
片 中 ， 当 我 检索 狗 的 时 候 会 检索 出 240 张 狗 的 图 片 ， 其 中 有 200 张 确实 是 狗 ， 有 20 张 是 被 误 判 的 猫 ， 还 有 20 张 是 被 误 判 的 兔子 ， 
所 以 240 张 狗 的 图 片 中 正确 的 仅 有 200 张 而 已 ， 那 么 狗 的 精确 率 为 200+240#*83.39%6。 人 怎么 样 ， 这 两 个 概念 不 难 理解 吧 。 


分 类 的 训练 过 程 和 回归 的 训练 过 程 一 样 ， 都 是 极为 套路 化 的 程序 。 

第 一 ， 输 入 样本 和 分 类 标签 。 

第 二 ， 建 立 映射 假说 的 某 个 y=f (x) 的 模型 。 

第 三 ， 求 解 出 全 局 的 损失 函数 Loss 和 待定 系数 w 的 映射 关系 ，Loss=g (w) . 


第 四 ， 通 过 迭代 优化 逐步 降低 Loss， 最 终 找 到 一 个 w 能 使 召回 率 和 精确 率 满足 当前 场景 需要 。 注 意 ， 这 里 尤其 捐 在 验证 数据 
集 上 的 表现 。 


大 家 请 注意 这 4 个 步骤 ， 我 们 从 前 面 最 简单 的 机 器 学 习 的 例子 中 已 经 忌 结 出 来 一 个 最 为 有 概括 性 的 科学 性 流程 。 这 种 流程 广 
泛 使 用 ， 并且 在 其 他 机 器 学 习 的 场景 中 也 是 可 以 顺利 落地 的 。 


分 类 器 的 训练 和 工作 过 程 珑 是 这 个 样子 了 ， 听 起 来 分 类 器 的 工作 过 程 非常 们 单 ， 但 是 要 知道 人 的 智能 行为 其 实 丈 是 一 种 非常 
精妙 或 者 称 为 完美 的 分 类 器 。 他 能 够 处 理 极为 复杂 、 极 为 抽象 的 输入 内 容 一 一 不 管 是 文子、 声音、 图像 ， 甚 至 是 冷 、 热 、 刺 痛 


或 、 瘙 痒 感 这 种 难以 名 状 的 刺激 ， 并 且 能 够 在 相当 短 的 时 间 内 进行 合理 的 输出 一 一 例如 对 答 、 附 和 、 评 论 ， 抑 或 是 尖 叫 、 大 笑 
等 各 种 喜 钨 月 乐 的 反应 与 表现 。 从 定义 的 角度 上 来 说 ， 人 其 实 束 是 一 种 极为 复杂 的 且 极 为 智能 的 分 类 器 。 而 我 们 在 工业 上 使 用 的 
B 


1.4 综合 应 用 


到 现在 为 止 ， 我们 看 到 的 绝 大 多 数 的 机 器 学 习 的 应 用 环境 都 非常 单纯 一 一 向 量 清 洗 到 位 ， 边 界 划 定 清 晰 。 例 如 ， 垃 圾 邮件 
的 分 拣 ， 能 够 通过 邮件 内 容 的 输入 来 判断 邮件 是 否 为 志 圾 邮件 ; 新 闻 的 目 动 分 类 ， 能 够 通过 新 闻 内 容 的 分 类 来 判断 新 闻 的 类 别 或 
摘 述 内 容 的 属性 ;摄像 头 对 车 牌号 的 OCR 电 子 识别 手 、 写 识别 ， 这些 应 用 可 以 通过 输入 一 个 图 像 来 得 到 其 中 缠 仿 的 文字 信息 向 
=, 诸如此类， 这 些 都 是 早 些 年 应 用 比较 成 熟 的 领域 ， 在 这 种 应 用 场景 中 机 器 通过 学 习 能 够 取代 一 些 纯粹 的 体力 劳动 。 
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在 近 几 年 ， 随 着 计算 机 能 力 的 提升 ， 尤 其 是 GPU 并 行 计算 的 普及 化 ， 使 得 很 多 原来 高 密度 计算 场景 的 门槛 变 得 越 来 越 低 ， 
人 们 在 商用 领域 已 经 开始 寻找 用 深度 学 习 的 网 络 来 做 一 些 原来 不 可 想象 的 事情 。 
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练 样本 ， 然 后 通过 卷 积 网 络 进行 处 理 ， 最 后 由 计算 机 “创作 ”出 一 幅 内 容 基于 照片 但 是 风格 基于 绘画 作品 的 新 作出 来 。 而 这 种 事 
情 在 几 年 前 是 难以 想象 的 ， 因 为 这 看 上 去 太 “ 智 能 ”了 ， 太 有 “创造 力 ” 了 ，。 


还 有 类 似 这 种 ， 我 们 输入 一 张 照片 ， 然 后 让 计算 机 根据 这 张 照片 的 风格 和 内 容 ， 任 空 创 造 一 张 很 像 但 不 一 样 的 照片 出 来 。 注 
意 哦 ， 这 个 跟 Photoshop 的 功能 可 是 完全 不 同 的 ， 它 是 全 目 动 的。 在 这 些 图 中 ， 右 侧 的 图 都 是 源 图 ， 左 侧 的 图 都 是 计算 机 生成 
的 图 ， 有 水 波纹 、 云 米 、 论 从 ， 还 有 随意 的 艺术 涂鸦 。 怎 么 样 ， 有 不 少 真 的 是 可 以 以 假 乱 真 了 吧 。 这 都 是 使 用 深度 神经 网 络 处 理 
的 结果 。 


Cnthacicad Qaureea 


M y IILUIVODLIDVU 


Synthesised 


Synthesised 


Ed 


那么 除 此 之 外 ， 像 语音 识别 以 及 视频 中 存在 物体 的 检 出 ， 这 些 内 容 也 是 属于 近 几 年 研究 比较 热门 并 逐渐 趋 于 成 熟 的 应 用 领 
域 。 实 际 上 ， 在 实现 层面 有 很 多 种 实现 方式 可 以 完成 像 这 样 的 应 用 。 而 在 学 术 领 域 ， 也 有 一 类 新 兴 的 基于 深度 学 习 神 经 网 络 的 研 
究 领 域 ， 叫 做 “对 抗 学习 ”， 它 可 以 实现 类 似 的 方式 。 在 深度 学 习 领 域 会 使 用 生成 对 抗 网 络 (Generative Adversarial 
Network) ， 这 种 网 络 的 特点 就 是 可 以 进行 复杂 内 容 的 生成 ， 而 非 生 成 一 个 标签 这 么 简单 。 


此 外 ， 人 谷歌、 百度 也 在 近年 局 动 了 无 人 驾驶 汽车 的 商业 研究 ， 这 种 目 动 驾驶 也 同样 是 一 种 典型 的 机 器 学 习 应 用 场景 。 只 不 过 
它 的 输入 信息 不 再 那么 单纯 ， 它 有 一 个 激光 雷达 ， 可 以 扫 摘 半径 60 米 内 的 环境 ， 并 把 雷达 回 肖 传 输 给 主 控 电 脑 ， 除 此 之 外 还 有 
前 置 摄像 头 用 来 识别 正 前 方 视 野 内 的 交通 信号 灯 、 和 车 辆 、 人 物 等 对 象 ; 还 有 前 后 雷达 ， 前 置 3 个 ， 后 置 1 个 ， 用 来 判断 与 前 后 物 
体 的 距离 ， 主 要 是 为 了 判断 车 距 使 用 。 当 然 还 少不了 GPS 和 电子 地 图 信息 的 配合 。 
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对 于 这 种 无 人 驾驶 汽车 的 调教 不 骨 是 编写 复杂 的 程序 ， 而 是 定义 多 个 复杂 的 深度 神经 网 络 ， 然 后 呢 ? 束 是 让 驾驶 员 开 着 汽车 
上 街 去 各 种 转 。 把 输入 的 各 种 大 量 的 激光 雷达 人 信号、 摄像 头 信号 、 前 后 雷达 信号 灯 这 些 输入 信息 和 驾驶 员 实 际 作用 在 汽车 上 的 大 
量 的 油门 、 刹 车 、 方 向 控制 这 些 操作 做 关联， 反复 进行 训练 ， 让 电脑 学 会 在 不 同 的 情况 下 使 用 不 同 的 操作 手法 来 操作 汽车 。 这 样 
一 个 训练 过 程 在 学 术 上 属于 强化 学 习 (reinforcement learning) 以 及 其 周边 岛 域 的 沁 畴 ， 在 人 工 智 能 万 面 ， 这 种 学 习 万 法 是 业 
界 普 裔 认可 的 。 只 不 过 各 万 对 目 动 驾驶 这 件 事 情 是 褒贬 不 一 ， 因 为 毕竟 它 在 商用 环境 中 出 现 过 事故 。 


据 报 道 ，2016 年 6 月 30 日 ， 美 国 特 斯 拉 汽 车 公司 证 实 ， 一 辆 该 公司 生产 的 9 型 电动 轿车 在 目 动 加 驶 模式 下 友 生 撞车 事故 ， 导 
致 司机 身亡 。 美 国 负责 监管 公路 交通 安全 的 机 构 正 在 对 事故 车 辆 的 目 动 驾驶 系统 展开 调查 。 这 是 美国 首 例 涉及 汽车 目 动 驾驶 功能 
的 交通 死亡 事故 。 


事故 于 2016 年 ?月 7 日 友 生 在 美国 佛罗里达 州 ， 导 致 涉 事 9 型 电动 轿车 和 车主、 一 名 40 罗 美国 男子 身亡 。 特 斯 拉 企 官方 博客 中 
说 ， 公 司 在 事 友 后 立即 同 美国 国家 高 速 公 路 交通 安全 省 理 局 作 了 报告 。 


美国 国家 遍 速 公路 交通 安全 管理 局 在 一 份 声明 中 说 ， 这 起 事故 表明 “需要 对 事故 友 生 时 局 用 的 辅助 〈 目 动 ) 驾驶 功能 的 设计 
和 性 能 进行 检查 ”。 目 前 该 机 构 已 对 这 起 事故 展开 初步 调查 ， 如 友 现 涉 事 车 辆 存在 安全 隐患 将 下 令 召 回 。 


寺 斯 拉 解 释 说 ， 涉 事 S 型 电动 轿车 当时 正 使 用 自动 驾驶 功能 行驶 在 有 分 割 线 的 高 速 公 路 上 ， 与 前 方 一 辆 处 于 横 穿 公路 位 置 的 
抑 挂 货车 呈 垂 直 天 系 。 在 逆光 育 景 下 ，s 型 电动 轿车 的 目 动 驾驶 系统 和 司机 都 没 注意 到 拖 挂 卡车 的 日 色 侧 面 ， 因 此 ，s 型 电动 轿 
车 没有 局 用 制 动 。 由 于 拖 挂 货 车 车 身高 大 ， 且 处 于 横 穿 公路 的 位 置 ， 使 得 “造成 这 场 和 车祸 的 情形 组 合 极为 罕见 ”， 以 致 * 型 电动 
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其 实 不 能 不 说 ， 这 也 暴露 出 人 工 智能 或 深度 学 习 中 的 一 些 软肋 ， 那 就 是 电脑 “天 生 弱 智 ” 的 特性 ， 它 是 不 具备 足够 好 的 应 变 
能 力 的 。 美 国 闭 名 智库 兰 德 公司 2016 年 4 月 在 一 份 研究 报告 中 指出 ， 目 动 和 驾驶 汽车 测试 的 思 里 程 还 很 少 ， 缺 乏 足 够 多 的 数据 来 对 
比 这 类 汽车 与 传统 汽车 的 安全 性 和 可 靠 性 。 迄 今 为 止 ， 测 试 时 间 最 长 的 是 谷歌 目 动 吕 驶 汽车 ， 从 2009 ~ 2015 年 ，55 辆 谷歌 目 动 
驾驶 汽车 的 道路 测试 总 里 程 仪 约 130 万 英里 ( 约 合 209 万 干 米 ) ， 其 间 共 友 生 了 11 起 小 事故 。 


有 研究 人 员 认为 ， 自 动 驾 驶 汽车 需要 测试 数 亿 至 数 千 亿 公里 ， 才 能 验证 它们 在 减少 交通 事故 方面 的 可 靠 性 ， 而 现 有 的 自动 驾 
驶 汽车 至 少 要 几 十 年 甚至 几 百 年 才能 达到 这 么 多 测试 里 程 。 如 果 要 在 自动 驾驶 汽车 上 市 前 证 明 其 安全 性 ， 这 不 可 能 做 到 。1[1] 


[1 信息 来 自 与 凤凰 财经 http://finance.ifeng.com/a/20160702/14552688_0.shtml， 有 删改 。 


1.5 Wes 


Sin, MERIME AK EXENA A, LVEYEERBUVERISSSLANBUEEANRI— EA ZSBS-T TOR ES T UHEATEURTRE- 
Tra, FAX SSRs ENS] BJ BXBABSIZRA, AM ASCHER AE. ix^ su n Bex CHRIS 
记 或 判断 ， 也 可 能 是 输出 一 段 内 容 一 一 图 片 、 程 序 人 代码、 文本、 声音， 而 机 器 上 自己 学 到 的 内 容 我 们 可 以 摘 述 为 一 个 函数 、 一 段 
程序 、 一 组 集 略 等 相对 复杂 的 关系 摘 述 。 


在 我 看 来 ， 机 器 学 习 是 大 数据 的 一 个 子 泡 畴 。 因 为 凡是 基于 对 客观 事物 的 量化 认 允 的 科学 都 是 数据 科学 的 学 畴 ， 也 残 是 广义 
的 大 数据 的 泡 畴 。 机 器 学 习作 为 其 中 一 个 用 来 目 动 归纳 和 总结 数据 关系 的 总 的 方法 论 当 然 算 其 中 的 一 个 子 学 畴 ， 这 点 没有 什么 疑 
问 。 


而 训 机 器 学 习作 为 研究 对 象 来 说 ， 也 有 传统 的 机 器 学 习 和 深度 学 习 两 个 粗略 的 分 类 万 式 ， 我 们 在 这 里 还 是 要 提 一 下 。 它 们 有 
个 比较 大 的 区 别 ， 那 就 是 传统 的 机 器 学 习 通 弟 是 需要 人 提前 先 来 做 特征 提取 ， 把 提取 过 的 特征 向 量化 后 再 到 给 模型 去 训练 ， 这 里 
人 要 做 相当 的 前 置 工作 。 而 深度 学 习 通 常 可 以 采用 End-to-End 的 学 习 方式 ， 输 入 的 内 容 只 需要 做 很 少 的 一 些 归 一 化 

(normalization) 、 日 化 (whitening) 等 处 理 束 可 以 丢 给 模型 去 训练 ， 通 常 不 需要 人 来 做 特征 提取 的 工作 。 而 这 个 特征 提取 
的 动作 可 以 由 整个 深度 学 习 的 网 络 模型 帮 有 我 们 目 动 完成 ， 这 融 给 很 多 传统 机 器 学 习 中 很 难处 理 的 问题 市 来 了 新 的 转机 。 


第 2 章 ”深度 学 习 是 什么 


2.1 神经 网 络 是 什么 


要 说 深度 学 习 (deep learning) ， 就 必须 先 襄 神经 网 络 ， 或 者 称 人 工 神 经 网 络 (artificial neural network, ANN) 。 神 
经 网 络 是 一 种 人 类 由 于 受到 生物 神经 细胞 结构 启发 而 研究 出 的 一 种 算法 体系 。 
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在 ， 细 胞 体 上 有 一 些小 核 权 叫 做 树 突 ， 细 长 的 这 一 条 像 尾巴 一 样 的 乐 西 叫做 轴 突 。 不 同 细胞 之 间 通 过 树 突 和 轴 突 相互 传递 信息 ， 
它们 的 接触 点 叫 突 触 ， 准 确 况 是 由 一 个 细胞 的 轴 突 通过 突 触 将 信号 传递 给 另 一 个 细胞 的 树 突 。 


独 经 细胞 在 信号 的 传递 中 用 的 是 化 学 信号 进行 传递 ， 化 学 信号 融 是 靠 一 些 有 机 化 学 分 子 的 传输 来 传递 信息 ， 但 是 有 机 化 学 分 
子 太 复杂 了 ， 到 现在 为 止 人 类 对 于 这 些 化 学 分 子 所 具体 承载 的 信息 仍旧 是 一 知 半 解 ， 还 没有 形成 完整 的 体系 性 解释 。 而 人 类 从 这 
种 通过 神经 细胞 之 间 的 刺激 来 传递 信息 的 方式 中 获得 了 局 迪 一 一 是 否 我 们 也 可 以 设计 这 样 一 种 网 络 状 连接 的 处 理 单 元 ， 让 它们 
彼此 之 间 通 过 某 种 方式 互相 刺激 、 协 同 完成 信息 处 理 呢 ?前 人 们 还 真有 这 种 脑 洞 大 又 圆 的 。 


比较 早 的 我 们 可 以 追溯 到 1957 年 Rosenblattl1 提 出 的 感知 器 模型 (perceptron) ， 这 种 模型 和 现在 最 新 应 用 框架 中 的 神经 
网 络 单元 形式 上 还 确实 是 非常 接近 的 。 我 们 要 想 了 解 神经 网 络 ， 就 应 该 先 看 看 它 最 基本 的 组 成 单元 一 一 神经 元 。 
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我 们 原来 在 数据 结构 研究 领域 和 基础 算法 研究 领域 中 所 接触 到 的 各 种 算法 基本 都 是 一 些 加 减 乘 除 、 比 大 小 、 循 环 、 分 又 、 读 写 数 
据 ， 用 这 泽 基本 的 组 合 残 能 够 完成 一 个 相对 确定 的 目标 任务 了 ， 即 便 这 个 目标 是 一 个 比较 复杂 的 算法 内 容 。 而 神经 网 络 和 这 种 方 
陈 感 区 上 还 真是 有 那么 点 不 一 样 ， 我 们 先 来 看 看 昼 经 元 是 个 什么 乐 西 。 


这 融 是 一 个 最 简单 的 神经 元 了 ， 有 一 个 输入 ， 一 个 输出 ， 所 以 它 所 表达 的 侣 义 跟 一 个 普通 的 阔 数 没有 什么 区 别 。 不 过 请 注 
， 现 在 我 们 使 用 的 神经 元 通常 有 两 个 部 分 组 成 ， 一 个 是 “线性 模型 。， 另 一 个 是 “激励 辫 数 ”。 如 果 你 对 机 器 学 习 不 大 了 解 的 
话 ， 我 们 丈 先 说 说 这 个 “线性 模型 ”。 


a 


假设 这 个 神经 元 的 函数 表达 为 : 

f (x) =x+1 

那么 这 就 是 一 个 普通 的 一 次 函数 。 也 就 是 说 ， 当 输入 为 x= 1 时， 输出 端的 f (x) =2; 当 输 入 为 x=100 时 ， 输 出 端的 
f (x) =101。 怎 么 桩 ， 是 不 是 很 简单 。 没 错 ， 你 刚刚 看 到 的 融 是 最 为 简单 的 神经 元 工作 的 原理 ， 和 普通 的 函数 真 的 看 不 出 什么 
太 大 的 区 别 。 也 许 你 要 说 ， 这 么 简单 的 东西 干 嘛 非 要 往 神 经 元 上 去 靠 ， 这 不 是 把 问题 复杂 化 了 么 ? 好 吧 ， 这 个 问题 我 也 先 不 做 解 
释 ， 我 们 再 看 下 一 个 例子 。 


Xs 


mu 


Xx 既然 可 以 是 一 个 一 维 的 向 量 ， 那 其 实 也 可 以 是 5 维 的 (就 如 上 图 这 样 ) 
DnE, FRA 


到 这 样 ) ， 当 然 也 可 以 是 100 维 或 更 多 ， 我 们 就 说 它 的 输入 为 
一 个 n 维 向 量 吧 。 按 照 前 面 一 维 向 量 的 处 理 方式 ， 我 们 可 以 建立 一 个 有 n 个 输入 项 的 神经 元 f (x) 
wo Xn) ， 咱 们 在 这 特别 声明 一 下 这 个 x 是 一 个 n 维 的 向 量 ， 然 后 带 有 一 个 输出 函 
输出 值 f (x) 


， 把 它 展 开 写 就 是 f (x4 
， 即 output=f (x) , 


/ XD， 
数值 output， 这 个 output 的 输出 值 就 是 函数 的 
而 这 个 函数 的 处 理 我 们 写作 : 
f (x) =wxtb 
这 种 方式 也 是 神经 元 最 核心 部 分 对 x 所 做 的 线性 处 理 ， 其 中 x 是 一 个 1xn 的 矩阵 ， 而 w 是 一 个 nx1 的 权重 矩阵 ，b 是 侦 置 项 。 
这 种 写法 看 上 去 很 简洁 ， 但 是 容易 让 初学 者 感到 糊涂 ， 至 少 没 
Tus 
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假设 ，n 是 5， 那 么 x 是 一 个 1x 5 的 输入 矩阵， 例如 


I 
50 
27 
19 

-55 


XSite T TCREBURHIEEISSX Y , CR I— MDA, IU BXRETZGIEBU, EMS MERTENS V TE 
不 同 的 场景 下 是 对 应 有 不 同 解释 的 。 比 如 这 个 矩阵 有 可 能 表示 的 是 一 个 样本 客 尸 的 个 人 财务 状况 ， 分 别 表 示 : 


性 别 
y 
年 收入 
LP OR ok RE 8 X 
n tit 


下 一 个 用 户 可 能 又 是 别 的 值 ， 这 样 一 个 一 个 样本 组 合 起 来 形成 了 一 个 很 大 的 样本 空间 一 注意， 这 些 样本 最 终 都 会 用 来 训 
练 模型 ， 我 们 先 记 住 它们 的 作用 ， 后 面 再 来 逐步 讲解 究竟 是 怎么 个 用 法 。 


w 是 一 个 nx1 的 矩 孟 ， 它 表示 的 是 一 个 权重 的 概念 ， 例 如 : 

0.3 0.8 1.5 1.2 0.5] 

它们 分 别 表示 : 

[性 别 权 重 ”年龄 权重 年 收入 权重 AP RRMREBRARE 负债 权重 | 


还 有 一 个 是 p，b 是 一 个 实数 值 ， 或 者 你 把 它 视 作 一 个 1x1 的 息 阵 也 无 妨 。 当 我 们 在 此 回顾 刚刚 况 的 这 个 函数 f (X) =wx+b 
的 时 候 ， 我 们 运 厦 来 解读 一 下 这 个 函数 的 侣 义 。 


wx 相 乘 是 两 个 炬 阵 进 行内 积 的 操作 ， 乘 出 来 是 一 个 实数 ， 最 后 再 加 上 b。 以 我 们 刚刚 的 例子 来 看 ， 我 们 先 假设 在 这 个 例子 中 
b 是 0， 会 得 到 这 样 一 个 结果 ， 即 f (x) =wx+b 残 变 成 了 : 


f (x) =1X0.3+50X0.8+27X1.5+19X1.2+ (-55) X0.5+0=44.7 


IX MASUR BA) Reese TS ABR PS AT BTL, BARBS MEA (客户 信息 ) , ED 


f (x) =0X0.3+25 X0.84+10 X1.5+8 X 1.2+0 X 0.5+0=51.6 
在 这 样 的 一 种 评价 体系 下 ， 第 二 位 客户 要 比 第 一 位 客户 获得 更 高 的 质量 评分 。 


那么 在 这 个 金融 机 构 的 日 弟 工 作 中 残 可 以 利用 这 个 函数 对 客户 的 情况 进行 评分 ， 并 进行 相应 的 信用 额 大 给予 ， 以 及 产品 推荐 
等 进一步 的 工作 了 。 这 残 是 一 个 昼 经 元 工作 时 最 直观 的 感 锡 ，w 和 x 求 内 积 ， 加 b 产 生 这 样 一 个 线性 的 结果 输出 。 因 为 一 个 神经 元 
也 是 一 个 逻辑 简单 的 模型 ， 所 以 它 本 身 也 能 够 单独 胜任 一 些 逻 辑 简 单 的 场景 。 单 个 的 神经 元 工作 起 来 基本 残 是 这 个 样子 ， 只 不 过 
后 面 还 会 加 一 个 激励 立 数 而 已 ， 人 至 于 激励 消 数 是 什么 ， 后 面 会 讲 。 怎 么 样 ， 到 目前 为 止 还 算 直 观 吗 ? 


好 ， 接 着 刚才 的 问题 来 说 。 问 题 是 ， 这 个 权重 是 谁 规定 的 ? 


对 机 器 学 习 有 概念 的 朋友 可 能 不 会 陌生 ， 如 果真 的 在 某 个 金融 机 构 里 有 这 种 公式 的 话 ， 十 有 八 九 是 通过 “逆向 ”的 万 法 得 到 
的 。 什 么 意思 呢 ? 束 是 说 ， 我 们 先 假设 这 里 有 一 些 未 知 的 权重 w (也 束 是 我 们 刚刚 说 的 那个 nx1 的 矩阵 ) ， 然 后 我 们 同时 还 拥有 
大 量 的 客 己 样本， 注意 这 个 地 方 的 样本 可 不 是 只 有 : 


这 种 维度 标识 ， 除 此 之 外 还 有 具体 被 赋予 的 分 数 一 一 这 个 分 数 一 定 是 由 其 他 万 式 获 得 的 ， 比 如 通过 多 年 的 业务 经 验 忌 结 ， 
由 业务 专家 给 予 的 每 个 样本 所 拥有 的 一 个 分 数 标签 。 这 样 一 来 场景 是 什么 样 的 呢 ? 


我 们 手 里 的 数据 : 

样本 1: 《性别 1， 年 龄 1， 年 收入 1， 用 户 忠 诚 度 指 数 1， 负 债 1) ， 分 数 1 

样本 2: 《性别 2， 年 龄 2， 年 收入 2， 用 户 忠 诚 度 指 数 2， 负 债 2) ， 分 数 2 

样本 n: (性 别 n， 年 龄 pn， 年 收入 np， 用户 忠诚 度 指 数 n， 负 债 n) ， 分 数 n 

当 有 了 n 个 这 种 样本 以 后 ， 我 们 通过 类 似 多 元 线性 回归 的 方式 把 这 些 值 代 入 我 们 假定 的 f (X) BA, MAB: 


分 数 1= 性 别 1X 性 别 权 重 + 年 龄 1X 年龄 权重 + 年 收入 1X 年 收入 权重 + 用 户 患 诚 度 指数 1X 用 户 趾 诚 度 权 重 二 负债 1 X 负债 权重 
+ 偏 置 


分 数 2= 性 别 2X 性 别 权 重 + 年 龄 2X 年 龄 权重 + 年 收入 2X 年 收入 权重 + 用 户 患 诚 度 指数 2X 用 户 忠 诚 度 权 重 二 负债 2X 负债 权重 
+ 偏 置 


分 数 n= 性 别 nX 性 别 权重 + 年 龄 nX FAR t+ FLAN x FRAG Et JA PL EREM in XT] PERAE An xX 负债 权重 
+ Aig XL 


在 前 面 讲解 回归 的 部 分 ， 我们 提 到 过 一 个 叫 Loss 的 消 数 : 


Fi 
Loss = > | wx, +b- y, 


i=] 


来 白 述 拟 合 与 真实 观测 的 差异 己 和 ， 我 们 称 之 为 残 震 。 在 这 个 例子 中 ， 如 果 要 想得到 比较 合适 的 w 和 b， 那 融 还 是 要 想 办 法 


让 这 个 函数 Loss (w, b) 尽 可 能 小 ， 然 后 取 满 足 这 个 状态 的 w 和 b。 这 个 过 程 是 没有 区 别 的 。 


回想 一 下 在 第 1 草 里 面 我 们 是 不 是 也 见 过 这 个 非常 熟悉 的 过 程 呢 ?再 加 深 一 饥 印 象 吧 ， 在 后 面 的 学 习 中 每 一 个 单独 的 模型 都 
要 经 历 这 样 一 个 完整 的 过 程 。 


2.1.2. BAIE HEN 


油 励 函数 (activation function) 一 一 也 有 翻译 成 激活 图 数 的 ， 也 是 神经 元 中 重要 的 组 成 部 分 。 激 励 国 数 在 一 个 神经 元 当 
中 跟随 在 f (x) =wx+b 尔 数 之 后 ， 用 来 加 入 一 些 非 线 性 的 因素 。 
在 谷歌 网 站 的 搜索 结果 中 或 者 别 的 相关 网 站 资料 上 我 们 会 看 到 激励 国 数 有 很 多 种 类 ， 就 看 看 它们 男 出 来 的 曲线 吧 ， 见 下 


图 向， 真 可 谓 五 花 八 门 。 然 而 在 目前 成 熟 的 深度 学 习 框 架 中 ， 供 我 们 使 用 的 激励 函数 其 实 很 有 限 ， 主 要 也 都 是 手边 上 那些 比较 好 
用 的 ， 那 我 们 就 看 一 下 通常 激励 函数 都 有 哪些 吧 。 


ro- zt: 


panete oa 0 (H3 
ra-[* & zz ra-[t 359 

mm— LAemiz o penis 

E mS TER: rea-[ E Zn 
rr kna a a rea-[: Ei 


Logistic (a.k.a. Soft step) 
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1.SigmoidERZi 


a for z<i 


Sigmoid eae LERIA ZIRANA SS RE ERE TS. CHAYES EXER: 


| 


—(wx+b) 


x)= 
v) I+e 


或 者 也 可 以 写成 


] 
z=wx+b, f(z)=—— 
l+e < 


这 里 的 横 轴 是 z， 纵 轴 是 f (z) 。 在 这 个 曲线 中 我 们 可 以 看 到 ， 对 于 一 个 高 维 的 x 向 量 的 输入 ， 在 wx 两 个 矩阵 做 元 内 积 之 


1 


后 ， 表 加 上 b， 这 样 的 一 个 线性 模型 的 结果 充当 目 变 量 z 再 鲁 加 人 到 了 1+e 当中 去 。 这 就 使 得 输入 x 与 输出 的 f (x) 关系 与 前 
面 我 们 所 举例 的 内 容 不 同 ， 前 面 我 们 只 讲 了 f(x) 以 线性 回归 的 方式 去 工作 的 过 程 ， 不 过 那 不 是 它 在 神经 网 络 中 工作 的 状态 。 当 
一 个 完整 的 昼 经 元 被 定义 的 时 候 ， 它 通 单 是 市 有 “线性 模型 ”和 “激励 冰 数 ”两 个 部 分 首尾 相 接 而 成 的 。 所 以 最 后 一 个 神经 元 大 
概 是 这 么 个 感觉 ， 前 半 部 分 接收 外 界 进来 的 x 向 量 作 为 刺激 ， 经 过 wx+b 的 线性 模型 后 又 经 过 一 个 激励 浮 数 ， 最 后 输出 。 这 里 只 
是 为 了 看 着 方便 ，x 只 画 了 6 条 线 ， 实 际 在 工作 中 很 多 全 连接 的 网 络 里 x 要 真 画 出 来 是 要 画 几 万 条 线 不 止 的 。 


f(z) = 


9igmoid 函 数 是 一 种 较 早 出 现 的 激励 函数 ， 把 激励 值 最 终 投 射 到 了 0 和 1 两 个 值 上 。 通 过 这 种 方式 引入 了 非 线性 因素 。 其 中 
的 “1” 表 示 完 全 激活 的 状态 ，“0” 表 示 完 全 不 激活 的 状态 ， 其 他 各 种 输出 值 融 介 于 两 者 之 间 ， 表 示 其 激活 程度 不 同 。 


说 到 为 什么 要 引入 非 线性 因素 ， 这 个 可 能 是 个 比较 有 趣 的 话题 。 因 为 最 终 用 一 个 大 的 函数 “网 络 ” 去 拟 合 一 个 对 应 的 关系 的 
时 候 你 会 友 现 ， 如 果 仪 有 线性 函数 来 拟 合 的 话 ， 那 么 拟 合 的 结果 一 定 仅仅 包含 各 种 各 样 的 线性 关系 。 一 旦 这 个 客观 的 、 我 们 要 求 
解 的 关系 中 本 就 谷 有 非 线 性 天 系 的话 ， 那 么 这 个 网 络 必定 严重 炙 拟 合 一 一 因为 从 一 开始 设计 出 来 的 网 络 束 属 于 “先天 残疾 ”， 
一 开始 束 猜 错 了 人 家 本 身长 的 样子 ， 那 再 怎么 训 | 练 都 不 会 有 好 结果 。 线 性 就 是 用 形 如 f (x) =wx+b 的 表达 陈 来 表示 的 输入 与 输 
出 的 天 系 ， 而 其 他 的 都 应 该 算 作 非 线性 天 系 了 ， 后 面 我 们 会 看 到 具体 的 例子 。 


2.TanhEgz 


Tanh tA Sree RAS, TERSIBISEÉSJBMNBEENIZERNN (recurrent neural networks) 的 时 候 我 们 就 会 接 
触 到 了 。 


Tanh 函 数 也 叫 双 曲 正切 函数 ， 表 达 式 如 下 : 


e m e" 


tanh(x) — — — 
Bum 


PRET HAITI : 


"(e^xce^-s)(e^xste^ox)" WER 
a 


x: 5.00250394 y 0.999924539 


ARAL, Tanh&&ZkRSigmoidESZAI TRAE ARTEBRES, SERA "S" He. RAW Tanh eB I-1 
和 1 上 去 。 其 中 “-1” 表 示 完 全 不 激活 ，“1” 表 示 完 全 激活 ， 中 辐 其 他 值 也 是 不 同 的 激活 程 硫 的 摘 述 。 除 了 映射 区 间 不 同 以 
外 ， 跟 Sigmoid 似 乎 区 别 不 是 很 大 。 从 x 和 y 的 关系 来 看 ，Sigmoid 函 数 在 |x| > 4 之 后 曲线 就 非常 平缓 极为 贴近 0 或 1，Tanh 函 数 
在 |x| > 2 之 后 会 让 曲线 非常 平缓 极为 贴近 -1 或 1， 这 多 多 少 少 会 影响 一 些 训练 过 程 中 待定 系数 的 收敛 问题 ， 其 他 的 影响 单纯 从 激 
励 溺 数 本 身 的 特性 来 说 还 看 不 出 来 。 


3.ReLUERZA 


ReLU 遂 数 是 目前 大 部 分 卷 积 神经 网 络 CNN (convolutional neural networks) 中 喜欢 使 用 的 激励 函数 ， 它 的 全 名 是 


rectified linear units, 


x--0035340373 y: -0.0353403/3 


这 个 函数 的 形式 为 y=max (x, 0) ， 在 这 个 函数 的 原点 左 侧 部 分 斜率 为 0， 在 右 侧 则 是 一 条 斜率 为 1 的 直线 。 从 样子 上 来 


A, XPATH, Xx FORA, xATOR Fate ME. 


这 个 函数 在 刚刚 我 们 看 过 的 几 个 函数 图 像 中 看 上 去 是 最 有 校 角 、 最 明明 了 的 。 “人 有 各 怪 相 必 有 古怪 能 这 晃 数 还 真 
是 有 一 些 非常 优秀 的 特性 ， 所 以 才 会 让 大 家 在 很 多 网 络 里 都 会 倾向 于 使 用 它 。 人 至 于 为 什么 我 们 后 面 也 会 详细 讲解 的 ， 先 让 它 跟 你 


iE T Ber. 
4.LinearERzA 


Linear 激 励 函 数 在 实际 应 用 中 并 不 太 多 ， 原 因 刚 刚 已 经 做 过 简单 的 解释 了 。 那 残 是 如 果 网 络 中 前 面 的 线性 层 引 入 的 是 线性 天 
Z., 后面 的 激励 层 还 是 线性 天 系 ， 那 么 束 会 让 网 络 没 办 法 很 好 地 拟 合 非 线性 特性 的 关系 ， 从 而 友 生 严重 的 欠 拟 合 现 象 。 


由 于 这 类 激励 消 数 的 局 限 性 问题 ， 目 前 主要 也 丈 是 出 现在 一 些 参考 资料 当中 做 个 “标本 ”， 商 用 环境 是 比较 罕见 的 ， 人 至少 笔 
者 到 目前 使 用 这 种 激励 函数 的 项 目 也 还 非常 少 。 


2.1.3 ”神经 网 络 


一 旦 多 个 神经 元 首尾 连接 形成 一 个 类 似 网 络 的 结构 来 协同 工作 的 时 候 ， 那 就 可 以 被 称 为 神经 网 络 了 。 一 般 也 没有 人 硬性 规定 
网 络 必须 有 多 少 层 ， 每 层 有 多 少 个 神经 元 节操 ， 完 全 是 在 各 个 场景 的 Case 中 根据 经 验 和 一 些 相 天理 论 进行 尝试 ， 最 后 得 到 一 个 


适应 当前 场景 的 网 络 设计 。 


大 家 请 注意 这 一 点， 在 学 习 神 经 网 络 (深度 学 习 ) 的 整个 历程 中 你 会 不 断 友 现 这 样 或 者 那样 的 不 同形 式 的 网 络 ， 每 种 网 络 或 
出 目 某 个 具体 的 工程 项 目 ， 根 据 需求 、 工 程 人 员 经 验 、 实 验 效 果 来 选 定 的 ， 或 者 出 目 某 些 尖端 的 实验 室 (例如 谷歌 、 微 软 以 及 国 
内 一 学 顶级 企业 等 ) ， 并 辅 以 相关 的 论文 对 网 络 在 实验 中 的 效果 与 同期 其 他 网 络 的 解决 方案 做 对 比 。 但 是 你 极 少 能 友 现 在 这 些 网 
络 的 诞生 过 程 中 有 完整 的 、 严 谨 的 、 普 适 的 、 址 庸 置疑 的 推导 过 程 一 一 也 难怪 有 不 少 从 事 深度 学 习 多 年 的 资深 老兵 说 深度 学 习 
越 学 越 像 老 中 医 。 我 完 得 这 个 说 法 还 挺 形 象 ， 年 轻 大 夫 没 经 验 不 敢 轻 易 开 万 子 ， 等 熬 成 了 老 中 医 的 时 候 才 友 现 里 面 门道 太 深 , 深 
到 了 研究 了 一 奉子 也 没 办 法 总 结 出 完整 的 、 可 以 精确 推导 的 公式 或 定理 ， 大 部 分 情况 只 能 靠 目 己 的 经 验 和 实验 结果 调整 药方 。 听 


ERREAREN? 其 实 你 学 过 之 后 残 知 道 了 ， 用 好 了 是 真能 解决 问题 ， 因 为 还 是 有 一 些 沉 泻 下 来 相对 比较 固定 的 设计 思 
路 、 设 计 技巧 和 体系 。 


朵 言 少 叙 ， 咱 们 来 看 神经 网 络 的 结构 吧 。 这 残 是 一 个 比较 简单 的 神经 网 络 结构 了 。 在 一 个 神经 网 络 中 通 音 会 分 这 样 几 层 : 58) 
AE (input layer) 、 隐 藏 层 (hidden layer， 也 叫 隐 侣 层 ) 、 输 出 层 (output layer) 。 


Y 


M 


L^ YS pae th) E 
taj A JE er E 输出 层 
输入 层 在 整个 网 络 的 最 前 端 部 分 ， 直 接 接受 输入 的 向 量 ， 它 是 不 对 数据 做 任何 处 理 的， 所 以 通常 这 一 层 是 不 计 入 层 数 的 ， 


隐藏 层 可 以 有 一 层 或 多 层 ， 现 在 比较 深 的 网 络 据 我 所 知 有 超过 50 层 的 ， 甚 至 在 一 些 “ 特 殊 ” 的 网 络 一 一 例如 深度 残 差 网 络 
中 有 超过 150 层 的 ! 这 已 经 非常 多 了 ， 人 在 本 书 所 涉及 的 实验 中 是 没有 这 么 多 层 的 神经 网 络 出 现 的 。 


输出 层 是 最 后 一 层 ， 用 来 输出 整个 网 络 处 理 的 值 ， 这 个 值 可 能 是 一 个 分 类 向 量 值 ， 也 可 能 是 一 个 类 似 线性 回归 那样 产生 的 连 
续 的 值 ， 也 可 能 是 别 的 复杂 类 型 的 值 或 者 向 量 ,， 根 据 不 同 的 需求 输出 层 的 构造 也 不 尽 相 同 ， 后 面 我 们 会 逐步 接触 到 。 


律 经 元 束 是 像 图 上 所 男 的 这 种 首尾 相 接 的 方式 进行 数据 传递 的 ， 前 一 个 神经 元 接收 数据 ， 数 据 经 过 处 理会 输出 给 后 面 一 层 的 
相应 的 一 个 或 多 个 神经 元 。 对 于 一 个 x 向 量 中 的 任何 一 个 维度 分 量 ， 你 都 可 以 在 这 种 拓扑 摘 述 中 看 到 它 在 通过 一 层 一 层 的 处 理 时 
通过 了 哪些 神经 元 的 处 理 ， 并 且 在 输出 后 又 输入 了 哪些 神经 元 。 形 式 上 束 是 这 个 样子 ， 所 以 叫 法 很 形象 ， 神 经 网 络 一 一 由 神经 
元 (神经 节点) 所 组 织 的 网 络 。 


[1] Frank Rosenblatt, (1928 年 7 月 ~1971 年 7 月 ) ， 美 国 著 名 心理 学 家 ， 人 工人 智能 学 家 。 


[2] 引 自 维基 百科 ，https://en.wikipedia.org/wiki/Activation_function。 


第 2 章 ”深度 学 习 是 什么 


2.1 神经 网 络 是 什么 


要 说 深度 学 习 (deep learning) ， 惑 必须 先 说 神经 网 络 ， 或 者 称 人 工 神 经 网 络 (artificial neural network, ANN) . 18 
经 网 络 是 一 种 人 类 由 于 受到 生物 神经 细胞 结构 司 友 而 研究 出 的 一 种 算法 体系 。 
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在 ， 细 胞 体 上 有 一 些小 核 权 叫 做 树 突 ， 细 长 的 这 一 条 像 尾巴 一 样 的 乐 西 叫做 轴 突 。 不 同 细胞 之 间 通 过 树 突 和 轴 突 相互 传递 信息 ， 
它们 的 接触 点 叫 突 触 ， 准 确 况 是 由 一 个 细胞 的 轴 突 通过 突 触 将 信号 传递 给 另 一 个 细胞 的 树 突 。 


独 经 细胞 在 信号 的 传递 中 用 的 是 化 学 信号 进行 传递 ， 化 学 信号 融 是 靠 一 些 有 机 化 学 分 子 的 传输 来 传递 信息 ， 但 是 有 机 化 学 分 
子 太 复杂 了 ， 到 现在 为 止 人 类 对 于 这 些 化 学 分 子 所 具体 承载 的 信息 仍旧 是 一 知 半 解 ， 还 没有 形成 完整 的 体系 性 解释 。 而 人 类 从 这 
种 通过 神经 细胞 之 间 的 刺激 来 传递 信息 的 方式 中 获得 了 局 迪 一 一 是 否 我 们 也 可 以 设计 这 样 一 种 网 络 状 连接 的 处 理 单 元 ， 让 它们 
彼此 之 间 通 过 某 种 方式 互相 刺激 、 协 同 完成 信息 处 理 呢 ?前 人 们 还 真有 这 种 脑 洞 大 又 圆 的 。 


比较 早 的 我 们 可 以 追溯 到 1957 年 Rosenblattl1 提 出 的 感知 器 模型 (perceptron) ， 这 种 模型 和 现在 最 新 应 用 框架 中 的 神经 
网 络 单元 形式 上 还 确实 是 非常 接近 的 。 我 们 要 想 了 解 神经 网 络 ， 就 应 该 先 看 看 它 最 基本 的 组 成 单元 一 一 神经 元 。 


2.1.1 £L 


TRES SLE A SEL FRA Se CWSU, Bini 3 Bodl ERREUR SST REG BPA EDU. 
我 们 原来 在 数据 结构 研究 领域 和 基础 算法 研究 领域 中 所 接触 到 的 各 种 算法 基本 都 是 一 些 加 减 乘 除 、 比 大 小 、 循 环 、 分 又 、 读 写 数 
据 ， 用 这 泽 基本 的 组 合 残 能 够 完成 一 个 相对 确定 的 目标 任务 了 ， 即 便 这 个 目标 是 一 个 比较 复杂 的 算法 内 容 。 而 神经 网 络 和 这 种 方 
陈 感 区 上 还 真是 有 那么 点 不 一 样 ， 我 们 先 来 看 看 昼 经 元 是 个 什么 乐 西 。 


这 融 是 一 个 最 简单 的 神经 元 了 ， 有 一 个 输入 ， 一 个 输出 ， 所 以 它 所 表达 的 侣 义 跟 一 个 普通 的 阔 数 没有 什么 区 别 。 不 过 请 注 
， 现 在 我 们 使 用 的 神经 元 通常 有 两 个 部 分 组 成 ， 一 个 是 “线性 模型 。， 另 一 个 是 “激励 辫 数 ”。 如 果 你 对 机 器 学 习 不 大 了 解 的 
话 ， 我 们 丈 先 说 说 这 个 “线性 模型 ”。 


a 


假设 这 个 神经 元 的 函数 表达 为 : 

f (x) =x+1 

那么 这 就 是 一 个 普通 的 一 次 函数 。 也 就 是 说 ， 当 输入 为 x= 1 时， 输出 端的 f (x) =2; 当 输 入 为 x=100 时 ， 输 出 端的 
f (x) =101。 怎 么 桩 ， 是 不 是 很 简单 。 没 错 ， 你 刚刚 看 到 的 融 是 最 为 简单 的 神经 元 工作 的 原理 ， 和 普通 的 函数 真 的 看 不 出 什么 
太 大 的 区 别 。 也 许 你 要 说 ， 这 么 简单 的 东西 干 嘛 非 要 往 神 经 元 上 去 靠 ， 这 不 是 把 问题 复杂 化 了 么 ? 好 吧 ， 这 个 问题 我 也 先 不 做 解 
释 ， 我 们 再 看 下 一 个 例子 。 


Xs 


mu 


Xx 既然 可 以 是 一 个 一 维 的 向 量 ， 那 其 实 也 可 以 是 5 维 的 (就 如 上 图 这 样 ) 
DnE, FRA 


到 这 样 ) ， 当 然 也 可 以 是 100 维 或 更 多 ， 我 们 就 说 它 的 输入 为 
一 个 n 维 向 量 吧 。 按 照 前 面 一 维 向 量 的 处 理 方式 ， 我 们 可 以 建立 一 个 有 n 个 输入 项 的 神经 元 f (x) 
wo Xn) ， 咱 们 在 这 特别 声明 一 下 这 个 x 是 一 个 n 维 的 向 量 ， 然 后 带 有 一 个 输出 函 
输出 值 f (x) 


， 把 它 展 开 写 就 是 f (x4 
， 即 output=f (x) , 


/ XD， 
数值 output， 这 个 output 的 输出 值 就 是 函数 的 
而 这 个 函数 的 处 理 我 们 写作 : 
f (x) =wxtb 
这 种 方式 也 是 神经 元 最 核心 部 分 对 x 所 做 的 线性 处 理 ， 其 中 x 是 一 个 1xn 的 矩阵 ， 而 w 是 一 个 nx1 的 权重 矩阵 ，b 是 侦 置 项 。 
这 种 写法 看 上 去 很 简洁 ， 但 是 容易 让 初学 者 感到 糊涂 ， 至 少 没 
Tus 
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假设 ，n 是 5， 那 么 x 是 一 个 1x 5 的 输入 矩阵， 例如 


I 
50 
27 
19 

-55 
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不 同 的 场景 下 是 对 应 有 不 同 解释 的 。 比 如 这 个 矩阵 有 可 能 表示 的 是 一 个 样本 客 尸 的 个 人 财务 状况 ， 分 别 表 示 : 


性 别 
y 
年 收入 
LP OR ok RE 8 X 
n tit 


下 一 个 用 户 可 能 又 是 别 的 值 ， 这 样 一 个 一 个 样本 组 合 起 来 形成 了 一 个 很 大 的 样本 空间 一 注意， 这 些 样本 最 终 都 会 用 来 训 
练 模型 ， 我 们 先 记 住 它们 的 作用 ， 后 面 再 来 逐步 讲解 究竟 是 怎么 个 用 法 。 


w 是 一 个 nx1 的 矩 孟 ， 它 表示 的 是 一 个 权重 的 概念 ， 例 如 : 

0.3 0.8 1.5 1.2 0.5] 

它们 分 别 表示 : 

[性 别 权 重 ”年龄 权重 年 收入 权重 AP RRMREBRARE 负债 权重 | 


还 有 一 个 是 p，b 是 一 个 实数 值 ， 或 者 你 把 它 视 作 一 个 1x1 的 息 阵 也 无 妨 。 当 我 们 在 此 回顾 刚刚 况 的 这 个 函数 f (X) =wx+b 
的 时 候 ， 我 们 运 厦 来 解读 一 下 这 个 函数 的 侣 义 。 


wx 相 乘 是 两 个 炬 阵 进 行内 积 的 操作 ， 乘 出 来 是 一 个 实数 ， 最 后 再 加 上 b。 以 我 们 刚刚 的 例子 来 看 ， 我 们 先 假设 在 这 个 例子 中 
b 是 0， 会 得 到 这 样 一 个 结果 ， 即 f (x) =wx+b 残 变 成 了 : 


f (x) =1X0.3+50X0.8+27X1.5+19X1.2+ (-55) X0.5+0=44.7 


IX MASUR BA) Reese TS ABR PS AT BTL, BARBS MEA (客户 信息 ) , ED 


f (x) =0X0.3+25 X0.84+10 X1.5+8 X 1.2+0 X 0.5+0=51.6 
在 这 样 的 一 种 评价 体系 下 ， 第 二 位 客户 要 比 第 一 位 客户 获得 更 高 的 质量 评分 。 


那么 在 这 个 金融 机 构 的 日 弟 工 作 中 残 可 以 利用 这 个 函数 对 客户 的 情况 进行 评分 ， 并 进行 相应 的 信用 额 大 给予 ， 以 及 产品 推荐 
等 进一步 的 工作 了 。 这 残 是 一 个 昼 经 元 工作 时 最 直观 的 感 锡 ，w 和 x 求 内 积 ， 加 b 产 生 这 样 一 个 线性 的 结果 输出 。 因 为 一 个 神经 元 
也 是 一 个 逻辑 简单 的 模型 ， 所 以 它 本 身 也 能 够 单独 胜任 一 些 逻 辑 简 单 的 场景 。 单 个 的 神经 元 工作 起 来 基本 残 是 这 个 样子 ， 只 不 过 
后 面 还 会 加 一 个 激励 立 数 而 已 ， 人 至 于 激励 消 数 是 什么 ， 后 面 会 讲 。 怎 么 样 ， 到 目前 为 止 还 算 直 观 吗 ? 


好 ， 接 着 刚才 的 问题 来 说 。 问 题 是 ， 这 个 权重 是 谁 规定 的 ? 


对 机 器 学 习 有 概念 的 朋友 可 能 不 会 陌生 ， 如 果真 的 在 某 个 金融 机 构 里 有 这 种 公式 的 话 ， 十 有 八 九 是 通过 “逆向 ”的 万 法 得 到 
的 。 什 么 意思 呢 ? 束 是 说 ， 我 们 先 假设 这 里 有 一 些 未 知 的 权重 w (也 束 是 我 们 刚刚 说 的 那个 nx1 的 矩阵 ) ， 然 后 我 们 同时 还 拥有 
大 量 的 客 己 样本， 注意 这 个 地 方 的 样本 可 不 是 只 有 : 


这 种 维度 标识 ， 除 此 之 外 还 有 具体 被 赋予 的 分 数 一 一 这 个 分 数 一 定 是 由 其 他 万 式 获 得 的 ， 比 如 通过 多 年 的 业务 经 验 忌 结 ， 
由 业务 专家 给 予 的 每 个 样本 所 拥有 的 一 个 分 数 标签 。 这 样 一 来 场景 是 什么 样 的 呢 ? 


我 们 手 里 的 数据 : 

样本 1: 《性别 1， 年 龄 1， 年 收入 1， 用 户 忠 诚 度 指 数 1， 负 债 1) ， 分 数 1 

样本 2: 《性别 2， 年 龄 2， 年 收入 2， 用 户 忠 诚 度 指 数 2， 负 债 2) ， 分 数 2 

样本 n: (性 别 n， 年 龄 pn， 年 收入 np， 用户 忠诚 度 指 数 n， 负 债 n) ， 分 数 n 

当 有 了 n 个 这 种 样本 以 后 ， 我 们 通过 类 似 多 元 线性 回归 的 方式 把 这 些 值 代 入 我 们 假定 的 f (X) BA, MAB: 


分 数 1= 性 别 1X 性 别 权 重 + 年 龄 1X 年龄 权重 + 年 收入 1X 年 收入 权重 + 用 户 患 诚 度 指数 1X 用 户 趾 诚 度 权 重 二 负债 1 X 负债 权重 
+ 偏 置 


分 数 2= 性 别 2X 性 别 权 重 + 年 龄 2X 年 龄 权重 + 年 收入 2X 年 收入 权重 + 用 户 患 诚 度 指数 2X 用 户 忠 诚 度 权 重 二 负债 2X 负债 权重 
+ 偏 置 


分 数 n= 性 别 nX 性 别 权重 + 年 龄 nX FAR t+ FLAN x FRAG Et JA PL EREM in XT] PERAE An xX 负债 权重 
+ Aig XL 


在 前 面 讲解 回归 的 部 分 ， 我们 提 到 过 一 个 叫 Loss 的 消 数 : 


Fi 
Loss = > | wx, +b- y, 


i=] 


来 白 述 拟 合 与 真实 观测 的 差异 己 和 ， 我 们 称 之 为 残 震 。 在 这 个 例子 中 ， 如 果 要 想得到 比较 合适 的 w 和 b， 那 融 还 是 要 想 办 法 


让 这 个 函数 Loss (w, b) 尽 可 能 小 ， 然 后 取 满 足 这 个 状态 的 w 和 b。 这 个 过 程 是 没有 区 别 的 。 


回想 一 下 在 第 1 草 里 面 我 们 是 不 是 也 见 过 这 个 非常 熟悉 的 过 程 呢 ?再 加 深 一 饥 印 象 吧 ， 在 后 面 的 学 习 中 每 一 个 单独 的 模型 都 
要 经 历 这 样 一 个 完整 的 过 程 。 


2.1.2. BAIE HEN 


油 励 函数 (activation function) 一 一 也 有 翻译 成 激活 图 数 的 ， 也 是 神经 元 中 重要 的 组 成 部 分 。 激 励 国 数 在 一 个 神经 元 当 
中 跟随 在 f (x) =wx+b 尔 数 之 后 ， 用 来 加 入 一 些 非 线 性 的 因素 。 
在 谷歌 网 站 的 搜索 结果 中 或 者 别 的 相关 网 站 资料 上 我 们 会 看 到 激励 国 数 有 很 多 种 类 ， 就 看 看 它们 男 出 来 的 曲线 吧 ， 见 下 


图 向， 真 可 谓 五 花 八 门 。 然 而 在 目前 成 熟 的 深度 学 习 框 架 中 ， 供 我 们 使 用 的 激励 函数 其 实 很 有 限 ， 主 要 也 都 是 手边 上 那些 比较 好 
用 的 ， 那 我 们 就 看 一 下 通常 激励 函数 都 有 哪些 吧 。 


ro- zt: 


panete oa 0 (H3 
ra-[* & zz ra-[t 359 

mm— LAemiz o penis 

E mS TER: rea-[ E Zn 
rr kna a a rea-[: Ei 


Logistic (a.k.a. Soft step) 
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Sigmoid eae LERIA ZIRANA SS RE ERE TS. CHAYES EXER: 
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—(wx+b) 


x)= 
v) I+e 


或 者 也 可 以 写成 


] 
z=wx+b, f(z)=—— 
l+e < 


这 里 的 横 轴 是 z， 纵 轴 是 f (z) 。 在 这 个 曲线 中 我 们 可 以 看 到 ， 对 于 一 个 高 维 的 x 向 量 的 输入 ， 在 wx 两 个 矩阵 做 元 内 积 之 


1 


后 ， 表 加 上 b， 这 样 的 一 个 线性 模型 的 结果 充当 目 变 量 z 再 鲁 加 人 到 了 1+e 当中 去 。 这 就 使 得 输入 x 与 输出 的 f (x) 关系 与 前 
面 我 们 所 举例 的 内 容 不 同 ， 前 面 我 们 只 讲 了 f(x) 以 线性 回归 的 方式 去 工作 的 过 程 ， 不 过 那 不 是 它 在 神经 网 络 中 工作 的 状态 。 当 
一 个 完整 的 昼 经 元 被 定义 的 时 候 ， 它 通 单 是 市 有 “线性 模型 ”和 “激励 冰 数 ”两 个 部 分 首尾 相 接 而 成 的 。 所 以 最 后 一 个 神经 元 大 
概 是 这 么 个 感觉 ， 前 半 部 分 接收 外 界 进来 的 x 向 量 作 为 刺激 ， 经 过 wx+b 的 线性 模型 后 又 经 过 一 个 激励 浮 数 ， 最 后 输出 。 这 里 只 
是 为 了 看 着 方便 ，x 只 画 了 6 条 线 ， 实 际 在 工作 中 很 多 全 连接 的 网 络 里 x 要 真 画 出 来 是 要 画 几 万 条 线 不 止 的 。 


f(z) = 


9igmoid 函 数 是 一 种 较 早 出 现 的 激励 函数 ， 把 激励 值 最 终 投 射 到 了 0 和 1 两 个 值 上 。 通 过 这 种 方式 引入 了 非 线性 因素 。 其 中 
的 “1” 表 示 完 全 激活 的 状态 ，“0” 表 示 完 全 不 激活 的 状态 ， 其 他 各 种 输出 值 融 介 于 两 者 之 间 ， 表 示 其 激活 程度 不 同 。 


说 到 为 什么 要 引入 非 线性 因素 ， 这 个 可 能 是 个 比较 有 趣 的 话题 。 因 为 最 终 用 一 个 大 的 函数 “网 络 ” 去 拟 合 一 个 对 应 的 关系 的 
时 候 你 会 友 现 ， 如 果 仪 有 线性 函数 来 拟 合 的 话 ， 那 么 拟 合 的 结果 一 定 仅仅 包含 各 种 各 样 的 线性 关系 。 一 旦 这 个 客观 的 、 我 们 要 求 
解 的 关系 中 本 就 谷 有 非 线 性 天 系 的话 ， 那 么 这 个 网 络 必定 严重 炙 拟 合 一 一 因为 从 一 开始 设计 出 来 的 网 络 束 属 于 “先天 残疾 ”， 
一 开始 束 猜 错 了 人 家 本 身长 的 样子 ， 那 再 怎么 训 | 练 都 不 会 有 好 结果 。 线 性 就 是 用 形 如 f (x) =wx+b 的 表达 陈 来 表示 的 输入 与 输 
出 的 天 系 ， 而 其 他 的 都 应 该 算 作 非 线性 天 系 了 ， 后 面 我 们 会 看 到 具体 的 例子 。 


2.TanhEgz 


Tanh tA Sree RAS, TERSIBISEÉSJBMNBEENIZERNN (recurrent neural networks) 的 时 候 我 们 就 会 接 
触 到 了 。 


Tanh 函 数 也 叫 双 曲 正切 函数 ， 表 达 式 如 下 : 


e m e" 


tanh(x) — — — 
Bum 


PRET HAITI : 


"(e^xce^-s)(e^xste^ox)" WER 
a 


x: 5.00250394 y 0.999924539 


ARAL, Tanh&&ZkRSigmoidESZAI TRAE ARTEBRES, SERA "S" He. RAW Tanh eB I-1 
和 1 上 去 。 其 中 “-1” 表 示 完 全 不 激活 ，“1” 表 示 完 全 激活 ， 中 辐 其 他 值 也 是 不 同 的 激活 程 硫 的 摘 述 。 除 了 映射 区 间 不 同 以 
外 ， 跟 Sigmoid 似 乎 区 别 不 是 很 大 。 从 x 和 y 的 关系 来 看 ，Sigmoid 函 数 在 |x| > 4 之 后 曲线 就 非常 平缓 极为 贴近 0 或 1，Tanh 函 数 
在 |x| > 2 之 后 会 让 曲线 非常 平缓 极为 贴近 -1 或 1， 这 多 多 少 少 会 影响 一 些 训练 过 程 中 待定 系数 的 收敛 问题 ， 其 他 的 影响 单纯 从 激 
励 溺 数 本 身 的 特性 来 说 还 看 不 出 来 。 


3.ReLUERZA 


ReLU 遂 数 是 目前 大 部 分 卷 积 神经 网 络 CNN (convolutional neural networks) 中 喜欢 使 用 的 激励 函数 ， 它 的 全 名 是 


rectified linear units, 


x--0035340373 y: -0.0353403/3 


这 个 函数 的 形式 为 y=max (x, 0) ， 在 这 个 函数 的 原点 左 侧 部 分 斜率 为 0， 在 右 侧 则 是 一 条 斜率 为 1 的 直线 。 从 样子 上 来 


A, XPATH, Xx FORA, xATOR Fate ME. 


这 个 函数 在 刚刚 我 们 看 过 的 几 个 函数 图 像 中 看 上 去 是 最 有 校 角 、 最 明明 了 的 。 “人 有 各 怪 相 必 有 古怪 能 这 晃 数 还 真 
是 有 一 些 非常 优秀 的 特性 ， 所 以 才 会 让 大 家 在 很 多 网 络 里 都 会 倾向 于 使 用 它 。 人 至 于 为 什么 我 们 后 面 也 会 详细 讲解 的 ， 先 让 它 跟 你 


iE T Ber. 
4.LinearERzA 


Linear 激 励 函 数 在 实际 应 用 中 并 不 太 多 ， 原 因 刚 刚 已 经 做 过 简单 的 解释 了 。 那 残 是 如 果 网 络 中 前 面 的 线性 层 引 入 的 是 线性 天 
Z., 后面 的 激励 层 还 是 线性 天 系 ， 那 么 束 会 让 网 络 没 办 法 很 好 地 拟 合 非 线性 特性 的 关系 ， 从 而 友 生 严重 的 欠 拟 合 现 象 。 


由 于 这 类 激励 消 数 的 局 限 性 问题 ， 目 前 主要 也 丈 是 出 现在 一 些 参考 资料 当中 做 个 “标本 ”， 商 用 环境 是 比较 罕见 的 ， 人 至少 笔 
者 到 目前 使 用 这 种 激励 函数 的 项 目 也 还 非常 少 。 


2.1.3 ”神经 网 络 


一 旦 多 个 神经 元 首尾 连接 形成 一 个 类 似 网 络 的 结构 来 协同 工作 的 时 候 ， 那 就 可 以 被 称 为 神经 网 络 了 。 一 般 也 没有 人 硬性 规定 
网 络 必须 有 多 少 层 ， 每 层 有 多 少 个 神经 元 节操 ， 完 全 是 在 各 个 场景 的 Case 中 根据 经 验 和 一 些 相 天理 论 进行 尝试 ， 最 后 得 到 一 个 


适应 当前 场景 的 网 络 设计 。 


大 家 请 注意 这 一 点， 在 学 习 神 经 网 络 (深度 学 习 ) 的 整个 历程 中 你 会 不 断 友 现 这 样 或 者 那样 的 不 同形 式 的 网 络 ， 每 种 网 络 或 
出 目 某 个 具体 的 工程 项 目 ， 根 据 需求 、 工 程 人 员 经 验 、 实 验 效 果 来 选 定 的 ， 或 者 出 目 某 些 尖端 的 实验 室 (例如 谷歌 、 微 软 以 及 国 
内 一 学 顶级 企业 等 ) ， 并 辅 以 相关 的 论文 对 网 络 在 实验 中 的 效果 与 同期 其 他 网 络 的 解决 方案 做 对 比 。 但 是 你 极 少 能 友 现 在 这 些 网 
络 的 诞生 过 程 中 有 完整 的 、 严 谨 的 、 普 适 的 、 址 庸 置疑 的 推导 过 程 一 一 也 难怪 有 不 少 从 事 深度 学 习 多 年 的 资深 老兵 说 深度 学 习 
越 学 越 像 老 中 医 。 我 完 得 这 个 说 法 还 挺 形 象 ， 年 轻 大 夫 没 经 验 不 敢 轻 易 开 万 子 ， 等 熬 成 了 老 中 医 的 时 候 才 友 现 里 面 门道 太 深 , 深 
到 了 研究 了 一 奉子 也 没 办 法 总 结 出 完整 的 、 可 以 精确 推导 的 公式 或 定理 ， 大 部 分 情况 只 能 靠 目 己 的 经 验 和 实验 结果 调整 药方 。 听 


ERREAREN? 其 实 你 学 过 之 后 残 知 道 了 ， 用 好 了 是 真能 解决 问题 ， 因 为 还 是 有 一 些 沉 泻 下 来 相对 比较 固定 的 设计 思 
路 、 设 计 技巧 和 体系 。 


朵 言 少 叙 ， 咱 们 来 看 神经 网 络 的 结构 吧 。 这 残 是 一 个 比较 简单 的 神经 网 络 结构 了 。 在 一 个 神经 网 络 中 通 音 会 分 这 样 几 层 : 58) 
AE (input layer) 、 隐 藏 层 (hidden layer， 也 叫 隐 侣 层 ) 、 输 出 层 (output layer) 。 


RTINA 


AW 


A p | pae th) E 
taj A JE er E 输出 层 
输入 层 在 整个 网 络 的 最 前 端 部 分 ， 直 接 接受 输入 的 向 量 ， 它 是 不 对 数据 做 任何 处 理 的， 所 以 通常 这 一 层 是 不 计 入 层 数 的 ， 


隐藏 层 可 以 有 一 层 或 多 层 ， 现 在 比较 深 的 网 络 据 我 所 知 有 超过 50 层 的 ， 甚 至 在 一 些 “ 特 殊 ” 的 网 络 一 一 例如 深度 残 差 网 络 
中 有 超过 150 层 的 ! 这 已 经 非常 多 了 ， 人 在 本 书 所 涉及 的 实验 中 是 没有 这 么 多 层 的 神经 网 络 出 现 的 。 

输出 层 是 最 后 一 层 ， 用 来 输出 整个 网 络 处 理 的 值 ， 这 个 值 可 能 是 一 个 分 类 向 量 值 ， 也 可 能 是 一 个 类 似 线性 回归 那样 产生 的 连 
续 的 值 ， 也 可 能 是 别 的 复杂 类 型 的 值 或 者 向 量 ， 根 据 不 同 的 需求 输出 层 的 构造 也 不 尽 相同 ， 后 面 我 们 会 逐步 接触 到 . 

独 经 元 咒 是 像 图 上 所 男 的 这 种 首尾 相 接 的 方式 进行 数据 传递 的 ， 前 一 个 神经 元 接收 数据 ， 数 据 经 过 处 理会 输出 给 后 面 一 层 的 
相应 的 一 个 或 多 个 昼 经 元 。 对 于 一 个 x 回 量 中 的 任何 一 个 维度 分 量 ， 你 都 可 以 在 这 种 拓扑 摘 述 中 看 到 它 在 通过 一 层 一 层 的 处 理 时 


通过 了 哪些 神经 元 的 处 理 ， 并 且 在 输出 后 又 输入 了 哪些 神经 元 。 形 式 上 束 是 这 个 样子 ， 所 以 叫 法 很 形象 ， 神 经 网 络 一 一 由 神经 
元 (神经 节点) 所 组 织 的 网 络 。 


[1] Frank Rosenblatt, (1928 年 7 月 ~1971 年 7 月 ) ， 美 国 著 名 心理 学 家 ， 人 工人 智能 学 家 。 


[2] 引 自 维基 百科 ，https://en.wikipedia.org/wiki/Activation_function。 


2.2 ”深度 仲 经 网 络 


2016 年 3 月 ， 随 着 Google 的 AlphaGol44 : 1A AeA CCA XR ERBESIBSSETH 3 UE, E———IX—-A# BUA LARA) 
内 轻松 碾 压 Al 的 竞技 领域 已 然 无 法 固守 ， 而 深度 学 习 (deep learning) 这 一 象征 着 未 来 人 工 智能 领域 最 重要 、 最 核心 的 科技 也 
越 来 越 成 为 人 们 关注 的 焦点 。 


这 里 所 谓 的 深度 学 习 实 际 指 的 是 基于 深度 神经 网 络 (deep neural networks, DNN) 的 学 习 ， 也 就 是 深度 人 工 神经 网 络 所 
进行 的 学 习 过 程 ， 或 称 作 Deep Learning。 这 个 Deep 指 的 是 神经 网 络 的 深度 ( 层 数 多 ) 。 当 然 ， 其 实业 界 没 有 特别 具体 地 定 
义 ， 大 于 多 少 层 的 算 深度 网 络 ， 少 于 多 少 层 的 不 算 ， 没 有 这 样 一 个 说 法 。 所 以 在 这 里 我 也 就 不 强调 多 深 算 深 的 概念 了 ， 我 们 就 权 
且 管 超过 2 层 的 一 一 也 就 是 1 个 隐藏 层 和 1 个 输出 层 以 上 深度 的 都 叫 深度 神经 网 络 好 了 。 不 过 呢 ， 深 度 学 习 这 个 词 我 觉得 还 有 另外 
一 个 层面 的 意思 ， 就 是 说 用 这 样 一 个 网 络 可 以 学 到 很 多 深层 次 的 东西 ， 能 够 提取 到 很 多 用 纯粹 基于 统计 学 指标 、 传 统 机 器 学 习 或 
显 了 式 的 特征 与 内 容 描述 所 无 法 名 状 的 东西 。 机 器 能 够 学 习 到 比较 丰富 的 信息 ， 这 是 人 类 在 上 友 明 出 计算 机 以 后 一 直 都 在 芝 试 挑战 的 
一 个 领域 。 读 过 本 书 姊妹 篇 《日 话 大 数据 与 机 器 学 习 》 的 朋友 估计 应 该 不 会 陌生 ， 在 那 本 书 中 ， 我 们 讨论 过 很 多 机 器 学 习 相 关 的 
算法 。 在 这 种 非 深度 学 习 的 场景 中 一 一 我 姑且 称 之 为 “ 浅 度 学 习 ” 吧 ， 人 们 输入 给 模型 的 学 习 样 本 都 是 要 经 过 高 度 提炼 的 向 量 
内 容 ， 而 不 能 像 我 们 在 深度 学 习 那 样 直 接 把 一 张 图 、 一 段 语音 、 一 段 视频 的 多 媒体 资料 丢 给 机 器 去 学 习 。 


就 拿 我 们 前 面 说 过 的 那个 例子 来 看 ， 年龄， 身高， 体重 ， 血 压 ， 血 脂 ) 这 样 的 数据 向 量 必须 由 人 来 提取 、 整 理 并 明确 定义 
每 个 向 量 维度 的 确实 合 义 。 剩 下 的 过 程 束 是 基于 这 些 人 类 已 经 抽象 过 的 指标 来 寻找 它们 之 间 的 逻辑 关系 。 这 束 是 与 “深度 学 
习 ” 相 对 的 “ 浅 度 学 习 ” 的 工作 场景 。 


如 果 使 用 贝 叶 斯 概率 进行 学 习 ， 那 束 是 用 统计 的 方法 解释 不 同事 件 先 验 概率 和 后 验 概率 的 量化 关系 计算 问题 ;如果 使 用 决策 
树 归纳 一 个 分 类 模型 ， 那 束 是 用 维度 的 引入 把 分 类 模型 向 信息 粹 降低 的 方向 做 引导 ， 还 是 一 个 统计 过 程 ;如果 是 用 支持 向 量 机 
SVM 做 分 类 ， 那 就 是 寻找 起 平面 来 保证 分 类 的 置信 和 度 最 大 ， 也 就 是 让 样本 点 距离 超 平 面 尽 可 能 远 ， 仍 然 是 一 个 统计 过 程 ， 这 些 
问题 大 部 分 靠 线性 模型 或 者 统计 学 概率 模型 能 够 给 出 清晰 的 物理 谷 义 解释 ， 当 然 它 们 的 局 限 性 也 非常 明显 。 如 果 读 者 朋友 对 这 个 
了 分 还 不 是 太 了 解 ， 建 议 参 考 相关 的 书籍 进行 一 下 知识 补充 。 


Okt 


注意 ， 在 这 里 要 强调 一 下 ， 在 很 多 切 学 者 中 有 一 毕 误区 ， 很 多 人 会 认为 深度 学 习 企 任何 情况 下 都 要 比 传统 机 器 学 习 表 现 更 
好 ， 但 实际 上 并 不 是 的 。 其 实 想 想 也 类 道 ， 这 不 符合 “ 尺 有 所 在 ， 寸 有 所 长 ”的 哲学 观点 。 从 前 面 的 叙述 可 以 看 出 来 ， 传 统 机 器 
学 习 在 工作 的 过 程 中 具有 非常 好 的 解释 特性 ， 或 者 说 你 知道 模型 在 做 什么 ， 处 理 的 是 什么 特征 ， 其 中 任何 一 个 指标 值 的 大 小 变化 
的 意义 会 有 民 好 的 解释 。 而 且 ， 传 统 机 器 学 习 在 训练 的 过 程 中 需要 很 少 的 样本 同 量 ， 通 单 都 是 百 级 或 者 干 级 融 够 了 ， 这 对 于 深度 
学 习 来 说 也 是 无 法 做 到 的 一 一 它 需 要 数 以 万 计 的 样本 来 做 训练 。 所 以 ， 大 家 干 万 不 要 盲目 迷信 深度 学 习 的 能 力 ， 也 不 要 误 读 了 
深度 学 习 的 作用 。 


人 类 的 眼睛 、 耳 抄 、 口 和 天， 是 上 天 赐 给 人 类 最 敏感 和 感 若 细 腊 的 器 官 。 没 锋 ， 有 眼睛 让 我 们 看 到 不 同 的 形状 、 不 同 的 颜色 、 不 
同 的 大 小 ， 它 使 我 们 能 够 轻松 辨别 千 百 万 种 不 同 的 物体 ; 耳 朱 可 以 听 到 20 Hz ~ 20000 Hz 之 间 的 声波 ， 能 够 感知 不 同 的 人 通过 
声波 传递 给 我 们 的 信息 ; 口舌 的 仔 在 也 极为 精妙 ， 天 头 可 以 用 来 兰 出 酸 研 天 辣 咸 〈 医 学 家 况 “ 辣 ”的 辨别 其 实 不 是 天 头 的 特性 ， 
而 是 包括 皮肤 在 内 的 很 多 细胞 都 有 的 特性 ) ， 而 人 的 声 市 友 出 的 声音 或 局 记 顺 腕 ， 或 低 回 媚 转 ， 能 够 传递 编 合 着 丰富 信息 的 音频 
数据 。 


刚刚 况 的 这 些 领域 中 的 数据 信息 大 都 属于 特征 提取 比较 困难 的 ， 数 据 量 大 ， 而 且 没 办 法 通过 线性 关系 或 者 统计 概率 关系 直接 
搞 述 。 这 尝 信 息 中 副 含 的 分 类 规则 对 于 只 会 做 加 减 乘 除 、 比 大 小 和 读 写 数据 的 计算 机 来 说 显得 太 困 难 了 。 你 想 啊 ， 把 一 张 照片 送 
到 计算 机 里 面 ， 你 束 让 他 判断 这 里 面 的 人 物 漂亮 不 漂亮 ， 不 难为 死 它 么 ? 它 看 到 的 不 过 是 一 堆 堆 的 数字 而 已 ， 还 没 法 直接 比 大 


小 。 


FLARES 
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RIRE, DOSER SUE SL TRU EDT Fri heats nee T StH. BSAN, AY, E 
EER EN AE) VT-SEBUSLO ELA ZSSETESTEAETS posta FHT-ZRFHPCHRIT, $efEUWERISB)mpegxft. avixfft. mp3 
和 和 mp4 文件 ， 里 面 都 强 合 着 丰富 的 音 视 频 多 媒体 信息 ， 怎 么 能 说 难于 量化 呢 。 是 的 ， 这 些 文件 确实 可 以 用 来 承载 元 整 的 音 视 频 
信息 ， 但 是 这 些 音 视频 信息 最 终 的 解读 在 相当 长 的 一 段 时 间 内 只 能 由 人 来 完成 。 换 句 话 说 ， 在 一 张 照 刻 中 ， 究 葛 表 示 的 是 一 匹 
Hj, 一 辆 车 ;在 一 段 视 频 里 ,播放 的 究竟 是 一 部 歌剧 ， 还 是 一 部 动作 电影 ， 这 些 内 容 让 计算 机 上 自己 来 做 判断 和 识别 几乎 是 没有 办 
法 的 。 因 为 ， 我 们 量化 存储 的 这 些 帧 数据 所 承载 的 信息 都 是 天 于 屏幕 上 某 个 点 的 颜色 的 ， 而 这 是 极 难 与 其 实际 承载 的 内 容 友 生 关 
联 的 ， 更 别 说 还 要 进行 相应 统计 和 概率 计算 了 。 


比如 下 面 这 两 张 图 片 ， 我 们 打眼 一 看 束 党 得 两 幅 膨 塑 表示 的 内 容 主题 是 相似 的 。 但 是 承载 它 的 文件 你 用 肉眼 骨 怎 么 仔细 看 ， 
也 无 法 看 出 这 一 堆 扒 数据 之 间 的 关系， 不仅 如 此 ， 即 便 你 用 其 他 任何 一 种 单 规 性 的 机 器 学 习 算法 ， 你 也 无 法 把 这 两 个 雕塑 天 联 在 
一 起 ， 因 为 它们 看 上 去 是 如 此 “不 相似 ”。 


在 我 们 连 图 片 所 承载 的 内 容 信 息 是 不 是 相似 都 无 法 判断 的 情况 下 ， 显 然 是 没有 办 法 做 更 深 一 步 的 分 析 的 。 在 我 们 束手无策 的 
时 候 ， 出 现 了 一 类 神器 一 般 的 算法 钦 辑 系统 ， 这 就 是 我 们 刚才 所 说 的 神经 网 络 ， 尤 其 是 层级 比较 深 的 神经 网 络 。 


QOO0DO01BO0 ,O02 01 O02 04 04 03 04 07 Vs 04 04 00 O1 02 77 00 
üao00n001CO0 |01 O2 03 11 04 05 2131 0&6 12 41 51 07 61 71 13 
Qü00001D0 |22 32 81 08 14 42 91 Al H1 C1 08 23 33 52 FO 15 
QO0001ED0 |62 72 D1 0A 16 24 34 EL 25 F1 17 18 19 1A 26 27 
QO0O001FD0 | 28 28 24 35 36 37 38 38 SA 43 44 45 46 47 48 49 
DOOOOFOO 44 53 54 55 56 57 58 58 SA 63 64 65 66 67 63 69 
00000210 64 73 74 75 76 77 78 78 TA 82 83 84 85 86 87 88 
DOOOOFAO |89 ZA S82 83 94 85 96 87 98 99 BÀ AZ À3 Ad AS Ab 
00000230 AT AB AG AA Be BS B4 BS BE B7 B8 BS BA C2 C3 C4 
00000240 |CS Ch CY C8 C9 CA D2 D3 D4 DS De D7 D8 DS DA E2 


OO0007K0 1F 01 00 03 01 010101 01 01 01 01 01 00 00 00 
OOOOO1LCO 00 00 OO 01 O2 03 04 05 O8 07 O8 OS OA OB FF C4 
OOOO01D0 00 B5 11 00 O2 O01 O2 04 04 03 04 07 O05 04 04 OO 
QO0001E0 01 02 77 O0 01 02 03 11 O04 05 21 31 06 12 41 51 
ü00001FOQ0 07 61 71 13 22 32 81 08 14 42 31 Al Bl C1 098 23 
OOO0O 200 33 52 FO 15 62 72 DI OA 16 24 34 El 25 F1 17 18 
00000210 19 14 26 27 28 285 2A 35 36 37 38 39 JA 43 44 45 
OO000220 $6 47 48 49 44 53 54 55 56 57 58 58 SA 63 64 &5 
OO000230 66 67 68 69 64 73 74 Ts 76 77 78 79 TA 82 83 84 
00000240 Ho 86 87 88 89 BA 92 93 94 85 96 87 98g 99 SA AJ 


深度 学 习 (deep learning) 这 个 概念 最 早 是 由 著名 计算 机 科学 家 Geoffrey Hinton! 等 人 于 2006 年 和 2007 年 在 《科学 》 

( (Sciences) ) 杂志 上 发 表 的 文章 中 所 提出 的 。 就 深度 学 习 而 言 ， 在 最 初 被 提出 的 时 候 指 的 是 深度 神经 网 络 (deep neural 
network) ， 而 随 着 神经 网 络 层 数 的 增多 ， 网 络 束 具备 了 很 多 原先 非 深度 神经 网 络 所 不 具备 的 学 习 能 力 ， 在 设计 合理 的 情况 下 它 
能 学 到 很 多 层面 的 内 容 ， 显 得 更 为 “智能 ”。 也 正 是 因为 这 一 点 ， 它 使 我 们 人 类 感觉 到 它 学 习 层 面 的 “深度 ”。 还 是 那 句 话 ， 虽 
然 “ 深 度 学 习 ” 这 个 词 本 身 单 指 网 络 的 深度 ， 但 是 如 果 你 认为 它 指 的 是 学 习 层 面 有 深度 ， 我 党 得 同样 不 能 算 错 ， 因 为 它 真 的 是 这 
样 ， 你 在 后 面 就 会 看 到 它 有 多 么 强大 了 。 


1] Geoffrey Hinton (1947 年 12 月 一 ) ， 神 经 网 络 之 父 。 


独 经 网 络 ， 尤 其 是 深度 神经 网 络 之 所 以 这 么 吸引 人 人， 主要 是 因为 它 能 够 通过 大 量 的 线性 分 类 器 和 非 线 性 天 系 的 组 合 来 完成 平 
HJ3ESSTER--BJ HEAT RT AY ee 


2.3.1 不 用 再 提取 特征 


有 前面 我 们 说 过 ， 在 以 往 我 们 使 用 的 朴素 贝 叶 斯 、 决 策 树 、 支 持 向 量 机 SVM 这 些 分 类 器 模型 中 ， 提 取 特 征 是 一 个 非常 重要 的 
前 置 工作 ， 也 就 是 襄 人 类 在 驱使 这 些 分 类 器 开始 训练 之 前 ， 先 要 把 大 量 的 样本 数据 整理 出 来 ，“ 干 干净 净 ” 地 提取 其 中 能 够 清晰 
量化 的 数据 维度 。 否 则 这 些 基于 概率 和 基于 空间 距离 的 线性 分 类 器 是 没 办 法 进行 工作 的 。 

然而 在 神经 网 络 中 ， 由 于 巨 量 的 线性 分 类 器 的 堆 妓 (并行 和 串 行 ) 以 及 卷 积 网 络 的 使 用 ， 它 对 噪声 的 忍耐 能 力 、 对 多 通道 数 
据 上 投射 出 来 的 不 同 特征 偏向 的 敏感 程度 会 自动 重视 或 者 忽略 。 这 样 我 们 在 处 理 的 时 候 ， 人 类 所 需要 使 用 的 技巧 就 没有 那么 高 要 
求 了 ， 也 就 是 我 们 通常 所 说 的 End-to-Endl 的 训练 方式 。 

这 是 一 种 非常 新 疾 并 且 非 常 有 吸引 力 的 方式 ， 人 类 对 机 器 学 习 中 的 环节 干预 越 少 ， 就 意味 着 距离 人 工 智 能 的 方向 越 折 ， 这 让 
我 们 充满 了 对 未 来 的 期 望 。 


2.3.2 ”处 理 线性 不 可 分 


种 经 网 络 还 有 一 个 最 神奇 的 地 方 ， 那 束 是 用 大 量 的 线性 分 类 器 的 堆 革 使 得 整个 模型 可 以 将 线性 不 可 分 的 问题 变 得 可 分 。 看 看 
下 面 这 个 人 简单 的 例子 。 


SVM 也 有 一 定 的 能 力 来 处 理 线性 不 可 分 的 问题 ， 但 它 利用 的 是 维度 的 引入 (或 者 说 升 维 ) 来 解决 的 。 而 神经 网 络 的 每 一 个 
健 经 元 都 是 一 个 线性 分 类 器 ， 所 以 神经 网 络 能 且 只 能 通过 线性 分 类 器 的 组 合 来 实现 线性 不 可 分 的 问题 。 


例如 ， 在 这 个 二 维 空间 中 有 这 样 一 个 不 规则 的 四 边 形 ， 如 果 我 们 想 用 一 条 绪 (一 个 线性 分 类 器 ) 把 它 分 开 ， 并 保证 其 一 侧 是 
这 个 四 边 形 内 所 有 的 点 ， 我 们 称 为 “类 别 1”， 另 一 侧 是 其 他 的 点 ， 我 们 称 为 “类 别 0”， 这 简直 是 不 可 能 的 ， 因 为 不 管 垮 么 
画 ， 这 一 条 续 都 会 使 得 其 中 全 少 有 一 个 类 非 单 “ 不 纯 ”。 没 天 系 ， 我 们 大 不 了 画 4 条 线 了 ， 


用 这 4 条 续 把 它 围 起 来 ， 也 残 是 必须 同时 满足 4 个 分 类 器 的 1 分 类 标准 才 算 是 我 们 要 约束 的 1 分 类 一 每 条 直 续 的 表达 陈 都 是 
形 如 f (x) =wx+b 的 线性 分 类 器 。 其 实 这 也 残 是 昼 经 网 络 比 以 前 各 种 分 类 器 厉害 的 地 方 了 ， 以 前 任何 一 种 分 类 器 可 都 没有 这 种 
能 耐 。 这 里 画 出 来 的 这 个 不 规则 四 边 形 不 一 定 是 一 张 图 片 中 的 信息 ， 它 只 是 用 来 表示 一 些 向 量 在 空间 中 的 聚集 区 域 。 


独 经 网 络 的 神经 元 可 以 有 很 多 层 ， 每 层 可 以 有 很 多 个 神经 元 ， 整 个 网 络 的 规模 可 以 有 几 和 干 甚 至 几 万 个 神经 元 ， 那 么 在 这 种 情 
况 下 ， 我 们 几乎 可 以 摘 绘 出 任意 的 线性 不 可 分 的 模型 了 。 当 然 ， 我 们 这 里 只 是 用 一 个 简单 的 二 维 向 量 来 进行 示意 ， 真 正 的 商用 场 
景 中 ， 这 些 向 量 通 党 有 几 十 万 个 维度 或 者 更 多 ， 神 经 网 络 的 层 数 也 会 非常 深 一 一 这 束 是 我 们 平时 所 说 的 深度 学 习 了 。 随 着 维度 
的 加 大 ， 深 度 的 加 深 ， 所 能 摘 述 的 分 类 器 的 复杂 程度 也 会 随 乙 增加 ， 所 以 传统 分 类 模型 中 无 法 通过 简单 的 线性 分 类 器 和 非 线性 分 
类 器 处 理 的 复杂 学 习 场 景 (例如 图 形 、 视 频 、 音 频 等 ) 残 能 够 通过 海量 分 类 器 的 堵 加 来 实现 。 


[1] 指 那 些 不 经 过 人 为 处 理 ， 直 接 把 输入 和 期 望 输出 作为 网 络 训练 的 工作 模式 的 训练 方法 。 这 种 方法 通 第 需要 的 样本 数量 极 大 。 


24 ”深度 学 习 应 用 


我 们 在 第 1 章 所 介绍 过 的 谷歌 无 人 雪 驶 汽车 仅仅 是 深度 学 习 的 一 个 典型 应 用 ， 深 度 学 习 的 应 用 领域 越 来 越 多 ， 而 且 是 几乎 企 
任何 一 个 产业 中 都 有 其 落地 的 身影 。 我 们 移 来 看 几 个 有 趣 的 应 用 。 


24.1 ”围棋 机 器 人 一 一 AlphaGo 


击败 李 世 石 的 谷歌 AlphaGo 束 不 用 说 了 ， 它 已 经 进入 我 们 的 视线 很 久 了 。 


它 由 谷歌 底下 DeepMind 公 司 的 戴 维 : 西 尔 弗 (David Silver) . XE RARA Ape (Demis Hassabis) 与 他 们 的 团 


队 开 发 ， 这 个 程序 利用 价值 网 络 (value network) 去 计算 局 面 ， 用 策略 网 络 (policy network) 去 选择 下 子 。2015 年 10 月 
AlphaGol 以 5 : 0 完胜 欧洲 围棋 冠军 、 职 业 二 段 选手 攀 麻 ;2016 年 3 月 对 战 世 界 围棋 冠军 、 职 业 九 段 选 手 李 世 石 ， 并 以 4 : 1 的 总 比 
分 获胜 。2016 年 7 月 18 日 ， 世 界 职 业 围棋 排名 网 站 GoRatings 公 布 最 新 世界 排名 ，AlphaGo 以 3612 分 ， 超 越 3608 分 的 柯 洁 成 为 
新 的 世界 第 一 。 


AlphaGo 其 实 是 有 两 个 “大 脑 ” 组 成 的 ， 也 融 是 两 套 完 整 的 深度 学 习 网 络 来 进行 配合 计算 的 。 


第 一 大 脑 : 落 子 选择 器 (move picker) 。 
AlphaGo 的 第 一 个 神经 网 络 大 脑 是 “监督 学 习 的 策略 网 络 ”， 观 察 棋盘 布局 企图 找到 最 佳 的 下 一 步 。 事 实 上 ， 它 所 基于 的 


理论 仍旧 是 遍历 一 棵 树 。 它 预测 每 一 个 符合 规则 的 下 一 步 的 最 佳 概率 ， 或 者 说 是 每 一 步 沙子 后 获胜 的 概率 ， 然 后 选择 其 中 一 个 获 
胜 概率 最 高 的 位 置 浴 子 。 这 可 以 理解 成 沙子 选择 器 。 


a Value network 


第 二 大 脑 : 棋局 评估 器 (position evaluator) 。 


AlphaGo 的 第 二 个 大 脑 棋局 评估 器 是 在 做 另外 一 件 事情 。 它 可 以 用 来 评价 一 个 盘面 的 好 坏 程度 ， 所 以 这 种 所 谓 的 棋局 评估 
器 残 是 价值 网 络 ， 通 过 整体 局 面 判断 来 辅助 洛 子 选择 器 。 这 个 判断 仅仅 是 个 大 概 的 价值 评估 ， 但 对 于 盘面 的 阅读 速度 提高 很 有 帮 
助 。 通 过 分 析 潜 在 的 未 来 局 面 的 “好 ”与 “ 坏 ”，AlphaGo 能 够 决定 是 否 通 过 特殊 变种 去 深入 阅读 ， 也 就 是 多 看 几 步 棋 。 如 果 
棋局 评估 器 说 这 个 特殊 盘面 的 变种 不 行 ， 那 么 Al 束 跳 过 阅读 在 这 一 条 线 上 的 任何 更 多 沙子 ， 从 而 加 快 盘面 阅读 的 速度 。 


policy network value network 


P mc | S) va(S ) 
o 


在 这 个 围棋 软件 的 背后 可 以 说 是 凝聚 了 大 量 的 深度 学 习 工程 师 的 心血 的 ， 不 过 也 可 以 说 是 凝聚 了 全 世界 所 有 围棋 高 手 和 围棋 
爱好 者 的 心血 。AlphaGo 变 得 这 么 强悍 ， 不 是 因为 它 天 生 有 这 么 强 的 功能 ， 而 是 因为 它 在 不断 和 世界 上 所 有 的 围棋 高 手 以 及 围 
棋 爱 好 者 下 棋 的 过 程 中 不 断 进 行 学 习 和 上 自我 完善 一 一 它 每 天 可 以 完成 100 万 盘 棋 ， 甚 至 是 让 目 己 的 “左手 ” 跟 目 己 的 “右手 ”下 
棋 ， 并 从 中 忆 结 规律 。 这 是 任何 人 类 都 无 法 做 到 的 。 


Tal.al 


24.2 ”被 教 坏 的 少女 


同样 是 在 2016 年 3 月 ， 微 软 在 测试 一 款 新 型 聊天 机 器 人 Tay.ai， 不 过 悲剧 的 是 这 款 机 器 人 在 Twitter 上 经 过 用 户 的 不 正当 “ 调 
教 ” 已 经 变 成 了 “ 女 流 虹 ”， 不 仅 碳 脏话 ， 还 友 表 一 些 市 有 种 族 收视 的 言论 ， 最 后 微软 不 得 不 将 其 下 线 。 


据悉 ， 这 球 聊天 机 器 人 主要 是 定位 于 18 ~ 24 多 的 美国 年 轻 网 友 ， 微 软 对 机 器 人 的 交流 内 容 并 没有 做 任何 设 定 ， 通 过 和 网 友 


进行 对 话 学 习 ， 来 逐渐 形成 目 己 的 交 济 体系 。 用 户 只 需 人 在 Twitter 上 @TayandYou 残 能 得 到 Tay.ai 的 回复 。 


Tay's developers seemed to discover what was happening and began furiously 
deleting the racist tweets. They also appeared to shut down her learning 


capabilities and she quickly became a feminist: 


LET Ryuki 
路 negaVoyag 


is feminism cancer 


E3 TayTweets 
lay JY 


jaVoyager | love feminism now 


I» Hogan's Arkanoid Igni Hogan's Arkanoid 
pshoeOnhead @TayandYou Microsoft expands its reprogramming efforts to other $ pshoeOnhead @ TayandYou Microsoft expands its reprogramming 
problematic twitter figures efforts to other problematic twitter figures 


用 尸 对 Tay.ai 似 乎 很 感 兴趣 ， 不 过 出 乎 意料 的 是 ， 在 24 小 时 之 内 ，Tay.ai 束 开始 被 网 友 市 坏 ， 友 布 了 不 少 攻击 性 的 言论 ， 让 
人 大 跌眼镜 ， 不 少 网 友 见证 了 Tay.ai 从 有 @ 觅 少女 到 不 恨 少女 的 转变 。 有 人 还 画 了 一 种 一 脸 邪 念 的 漫画 来 把 这 个 “ 女 机 器 人 ”的 表 
现 具象 化 。 目 前 微软 方面 表示 正在 对 这 蒜 人 工 智 能 机 器 人 Tay.ai 进 行 调 整 。 


从 原理 分 类 来 说 ，Tay.ai 所 基于 的 扩 术 应 该 是 RNN 及 其 扩展 领域 ， 也 束 是 循环 神经 网 络 recurrent neural networks， 这 种 
扩 术 能 够 比较 容易 识别 上 下 文 关 系 并 对 其 进行 深度 学 习 。 但 是 同样 是 那个 问题 ， 计 算 机 自己 是 极 难 识别 “和善 恶 美 丑 ” 的 ， 这 种 对 
于 人 的 三 观 会 有 较 清 晰 划 定 的 东西 对 于 计算 机 来 说 确实 很 难 。 


一 万 面 人 类 对 抽象 事物 的 理解 本 身 融 有 优势 ， 对 于 与 目 己 三 观 有 矛盾 的 东西 本 身 残 有 天 然 的 抵触 性 ， 但 是 计算 机 没有 一 一 
它 没有 判断 这 种 是 非 的 能 

另 一 方面 ， 计 算 机 学 习 的 速度 真 的 是 快 得 惊人 。 要 不 怎么 说 一 切 事物 都 有 两 面 性 呢 ， 即 使 是 学 坏 它 也 比 一 般 人 学 坏 得 快 。 脏 
话 我 们 人 一 分 钟 学 十 句 ， 人 家 一 分 钟 学 个 十 万 句 估计 跟 玩 一 样 。 所 以 最 后 实在 没 办 法 ， 微 软 只 能 把 它 下 架 了 。 


不 过 你 也 不 用 想 太 多 ， 叶 说 是 把 机 器 人 教 坏 了 ， 也 只 是 看 上 去 有 点 坏 ， 它 的 内 心 还 是 “ 清 日 ”的 ， 它 自己 其 实 根本 只 是 在 模 
仿 人 类 说 话 ， 根 据 上 下 文 找 一 句 看 上 去 “最 该 说 的 ” 话 ,， 但 它 其 实 并 不 知道 自己 在 真 的 说 什么 。 


24.3 ”本 田 公 司 的 大 宝贝 一 一 ASIMO 


日 本 本 田 是 一 家 世界 驰名 的 大 公司 ， 我 们 现在 知道 更 多 的 是 本 田 的 汽车 和 摩托 车 ， 而 最 令 本 田 引 以 为 之 的 其 实 是 它们 公司 的 
宝贝 ASIMO 一 一 阿 西 芝 。 有 兴趣 的 话 ， 读 者 朋友 们 可 以 去 访问 一 下 本 田 公 司 的 阿 西 莫 子 站 
Fahttp://www.honda.co.jp/ASIMO/about/, 


深 34cm， 最 大 行进 速度 为 每 小 时 9km 


应 该 说 阿 西 莫 是 目前 世界 上 为 数 不 多 的 可 以 以 类 人 型 出 现 的 绪 合 场景 应 用 的 机 器 人 。 阿 西 莫 的 身高 为 130cm， 宽 45cm， 进 
可 别 小 看 ， 人 家 是 可 以 双 脚 离 地 进行 奔跑 的 9km 啊 。 可 以 连续 行走 40min 不 用 充电 。 


它 育 后 的 匣子 残 是 电池 ， 比 我 们 平时 用 的 手机 电池 大 多 了 ， 不 过 也 没 办 法 ， 这 么 复杂 的 机 器 人 不 耗 电 才 奇 怪 。 


CHSSCHB. Beak, FÈB HAS, MAPA REWRRAD, MAS TOUS SEH EWS HAE, RARA, P 
以 他 所 能 做 的 事情 也 是 非常 令 人 叹为观止 的 。 


它 可 以 根据 人 的 行走 方向 做 预 判 ， 并 调整 目 己 的 行进 方向 不 要 与 对 方 友 生 碰撞 。 


即便 是 三 个 人 同时 说 话 它 也 能 听 清 楚 三 个 人 分 别 讲述 的 内 容 并 加 以 复述 。 


你 以 为 光 这 样 束 完了 吗 ? 那 可 太 低估 人 家 了 。 


— 


asimo 


还 有 融 是 类 似 踢 球 和 上 下 楼 这 种 对 平衡 性 要 求 极 为 奇 刻 的 事情 ， 阿 西 莫 也 能 轻松 胜任 。 皇 么 桩 ， 是 不 是 确实 很 厉害 ” 


对 于 阿 西 莫 的 训练 来 涡 ， 深 度 学 习 的 技术 肯定 是 少不了 了 。 不 过 除 此 之 外 更 厉 甫 的 芍 怕 还 是 本 田 公 司 的 各 种 硬件 感知 器 技 
术 、 材 料 工程 技术 (包括 电池 、 超 导 等 ) 、 自 动 化 技术 等 综合 领域 的 结合 和 应 用 。 阿 西 莫 基 本 代表 了 当今 世界 人 形 机 器 人 制造 的 
最 高 水 平 ， 目 前 能 够 做 到 与 这 个 水 平 类 似 的 机 器 人 制造 团队 还 是 密 寥 无 几 。 给 笔者 印象 最 深 的 还 是 美国 的 Boston Dynamics 公 
司 的 Atlas 系 列 机 器 人 人， 虽然 样 子 没 有 阿 西 莫 那 么 萌 吧 ， 但 是 也 能 够 双 脚 行走 ， 而 且 在 湿 滑 的 地 面 上 走 也 不 会 摔 倒 。 被 人 故意 推 
倒 也 能 站 起 来 ， 还 能 够 负重 走路 保持 平衡 ， 也 是 让 人 眼前 一 亮 。 


能 够 进行 制造 和 普及 才能 够 彰显 科技 大 国 的 真正 实力 ， 笔 者 本 人 也 是 非 单 期 


人 形 机 器 人 的 制造 是 对 综合 学 科 的 应 用 的 考验 ， 
望 中 国 能 够 早点 出 现 能 够 与 阿 西 莫 媳 寺 的 人 形 机 器 人 。 


它 几 乎 在 任何 一 个 细 分 领域 都 可 以 有 比较 


深度 学 习 是 一 种 前 景 非 常 好 的 应 用 领域 ， 也 就 是 我 们 平时 说 的 “看 不 到 天 花 板 ” 
好 的 应 用 ， 并 且 能 够 产生 大 量 的 剩余 价值 ， 发 展 生 产 力 。 而 且 随 着 计算 机 计算 性 能 的 不 断 提 升 ， 深 度 学 习 的 应 用 也 将 积累 更 快 ， 
领 


党 地 更 廉价 。 我 们 有 充分 的 理由 相信 ， 深 度 学 习 的 友 展 将 是 未 来 几 十 年 内 世界 科技 友 展 的 最 为 重要 的 领域 之 一 。 
不 过 像 阿 西 莫 这 样 的 机 器 人 的 训练 过 程 ， 不 会 仪 仅 只 依赖 一 套 深 度 神 经 网 络 来 苑 当 其 大 脑 的 ， 远 没有 那么 简单。 除去 所 有 制 


造 性 质 的 环节 不 说 ， 就 是 机 器 人 本 身 也 很 可 能 有 着 多 套 功 能 强大 的 深度 神经 网 络 并 且 要 通过 一 定量 的 强化 学 习 (reinforcement 
learning) 来 进行 互动 式 的 训练 ， 长 期 反复 积累 才能 达到 一 定 的 智能 水 平 。 强 化 训练 时 有 一 套 比 较 有 效 的 对 训练 智能 机 器 人 有 和 良 


好 效果 的 万 法 论 ， 我 们 在 第 11 草 有 一 定 的 篇 幅 来 做 说 明 。 我 们 先 看 单独 的 深度 学 习 网 络 怎 么 玩 。 


随 着 深度 学 习 技术 的 逐步 兴起 ， 世 界 范 围 内 支持 深度 学 习 的 框架 也 如 十 后 春 敌 。 那 些 各 大 学 实验 室 制 作出 来 的 不 出 名 的 小 项 


Amat S, Oe A RACES mE A TensorFlow, Caffe, Theano, Torch PHHRP, 


我 们 在 这 本 书 中 选用 TensorFlow 是 因为 笔者 认为 TensorFlow 作 为 谷歌 重要 的 开源 项 目 ， 其 未 来 的 社区 热度 应 该 是 容易 保证 
的 。 而 一 个 火热 的 社区 对 于 推动 一 个 开源 项 目 发 展 有 着 至 关 重 要 的 作用 ， 它 能 让 项 目 有 旺盛 的 生命 力 且 在 生命 周期 中 不 断 涌现 新 
的 功能 并 以 较 快 的 迭代 来 更 新 Bug 修 复 


3.1 fait 


TensorFlow 是 一 个 采用 数据 流 图 (data flow graphs) ， 用 于 数值 计算 的 开源 软件 库 。 节 点 (nodes) 在 图 中 表示 数学 操 
作 ， 图 中 的 线 (edges) 则 表示 在 节点 间 相 互联 系 的 多 维 数 据 数组 ， 即 张 量 (tensor) 。 它 灵活 的 架构 让 你 可 以 在 多 种 平台 上 展 
THEE, 例如 台式 计算 机 中 的 一 个 或 多 个 CPU (或 GPU) 、 服 务 器 、 移 动 设备 等 。TensorFlow 最 初 由 Google 大 脑 小 组 (隶属 
于 Google 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 ， 用 于 机 器 学 习 和 深度 神经 网 络 方面 的 研究 ， 但 这 个 系统 的 通用 性 
使 其 也 可 广泛 用 于 其 他 计算 领域 。 


下 面 这 张 图 就 是 数据 流 图 ， 数 据 流 图 用 节点 和 线 的 有 向 图 来 描述 数学 计算 。“ 节 点 ”一 般 用 来 表示 施加 的 数学 操作 ， 但 也 可 
以 表示 数据 输入 (feed in) 的 起 点 /输出 (push out) 的 终点 ,或 者 读 取 / 写 入 持久 变量 (persistent variable) 的 终点 。 线 表 
示 节 点 之 间 的 输入 /输出 关系 。 这 些 数据 “ 线 ” 可 以 运输 “size 可 动态 调整 ”的 多 维 数 据 数组 ， 即 张 量 。 张 量 从 图 中 流 过 的 直观 
图 像 是 这 个 工具 取 名 为 “TensorFlow” 的 原因 。 一 旦 输入 端的 所 有 张 量 准备 好 ， 节 点 将 被 分 配 到 各 种 计算 设备 完成 异步 并 行 运 
算 
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3.2 ”与 其 代 ( 匡 染 的 对 比 


1) TensorFlow: 深度 学 习 最 流行 的 库 之 一 ， 是 谷歌 在 深刻 总 结 了 其 前 身 DistBelief 的 经 验 教 训 上 形成 的 ; 它 不 仅 便 携 、 高 
fr: 小 到 智能 手机 ， 大 到 计算 机 集群 ; 它 是 一 款 轻 量 级 的 软件 ， 可 以 立刻 生成 你 的 训练 模 


效 、 可 扩展 ， 还 能 在 不 同 计算 机 上 运行 : 
型 ， 也 能 重新 实现 它 ;，TensorFlow 有 强大 的 社区 、 企 业 支 持 ， 因 此 它 广泛 用 于 从 个 人 到 企业 、 从 初创 公司 到 大 公司 等 不 同 群 
专注 于 卷 积 神经 网 络 和 图 像 处 理 ， 是 用 C++ 语 言 写 成 的 ， 执 行 速度 非常 快 。 


2) Caffe: 卷 积 神经 网 络 框 碎 ， 
3) Chainer: 一 个 强大 、 灵 活 、 直 观 的 机 器 学 习 Python 软 件 库 ， 能 够 在 一 台 机 器 上 利用 多 个 GPU， 由 深度 学 习 创业 公司 


Preferred Networks 开 发 ， 在 Github 上 有 相当 数量 的 项 目 ; Chainer 的 设计 基于 “define by run” 原则 ， 也 就 是 说 ， 该 网 络 在 


运行 中 动态 定义 ， 而 不 是 在 启动 时 定义 ， 这 也 是 该 框架 的 一 大 亮 上 后 。 
4) CNTK: CNTK (Computational Network ToolKit) 是 微软 研究 人 员 开 妈 的 用 于 深度 神经 网 络 和 多 GPU 加 速 技术 的 完 


整 开源 工具 包 。 人 微软 称 CNTK 在 语音 和 图 像 识 别 方面 ， 比 谷歌 的 TensorFlow 等 其 他 深度 学 习 开 源 工 具 包 更 有 优势 。 
5) Deeplearning4j: 专注 于 神经 网 络 的 Java 库 ， 可 扩展 并 集成 Spark、Hadoop 和 其 他 基于 Java 的 分 布 式 集成 软件 。 


6) Nervana Neo: 是 一 个 高 效 的 Python 机 器 学 习 库 ， 它 能 够 在 单个 机 器 上 使 用 多 个 GPU。 


7) Theano: 是 一 个 用 Python 编 写 的 极其 灵活 的 Python 机 器 学 习 库 ， 用 它 定义 复杂 的 模型 相当 容易 ， 因 此 它 在 研究 中 极其 


Ny ava 
流行 。 


8) Torch: 是 一 个 专注 于 GPU 实 现 的 机 器 学 习 库 ， 得 到 了 像 Facebook、 谷 歌 、Twitter 这 样 的 大 公司 的 研究 团队 的 支持 。 


3.3 ”其 他 特点 


IANS 


1. 多 环境 与 集群 文 持 


首先 ，TensorFlow 文 持 在 PC 的 CPU 环境 、GPU 环 境 甚 全 是 安 齐 环境 中 运行 。 它 不 仅 可 以 文 持 在 单个 计算 单元 (一 颗 CPU 的 
多 核心 或 一 颗 GPU 的 多 核心 ) 上 进行 运算 ， 也 支持 一 台 机 器 上 多 个 CPU 或 多 个 GPU 上 并 行 计算 。 


2016 年 4 月 14 日 ，Google 发 布 了 分 布 式 TensorFlow， 能 够 支持 在 几 百 台 机 器 上 并 行 训 | 练 。 分 布 式 的 TensorFlow 由 高 性 能 
的 g9RPC 库 作为 底层 技术 支持 。TensorFlow 集 群 由 一 系列 的 任务 组 成 ， 这 些 任务 执行 TensorFlow 的 图 计算 。 每 个 任务 会 关联 到 
TensorFlow 的 一 个 服务 ， 访 服务 用 于 创建 TensorFlow 会 话 及 执行 图 计算 。TensorFlow 集 群 也 可 以 划分 为 一 个 或 多 个 作业 ， 
个 作业 可 以 包含 一 个 或 多 个 任务 。 在 一 个 TensorFlow 集 群 中 ， 通 常 一 个 任务 运行 在 一 个 机 器 上 。 如 果 该 机 器 支持 多 GPU 设备 ， 
可 以 在 该 机 器 上 运行 多 个 任务 ， 由 应 用 程序 控制 任务 侍 哪个 GPU 设备 上 运行 。 


单 用 的 深度 学 习 训 练 模型 为 数据 并 行 化 ， 即 TensorFlow 任 务 采 用 相同 的 训练 模型 在 不 同 的 小 批量 数据 集 上 进行 训练 ， 然 后 
在 参数 服务 器 上 更 新 模型 的 共享 参数 。TensorFlow 支 持 同步 训练 和 异步 训练 两 种 模型 训 | 练 方式 。 


异步 训练 即 TensorFlow 上 每 个 节点 上 的 任务 为 独立 训 | 练 方式 ， 不 需要 执行 协调 操作 ， 如 下 图 所 示 : 


Asynchronous Data Parallelism 


同步 训练 为 TensorFlow 上 每 个 节点 上 的 任务 需要 读 入 共享 参数 ， 执 行 并 行 化 的 梯度 计算 ， 然 后 将 所 有 共享 参数 进行 合并 ， 


如 下 图 所 示 : 


‘Sede Data Parallelism 


这 两 个 图 况 明 的 过 程 具 体 是 这 样 的 : 兽 先 ， 初 始 化 一 个 模型 的 矩阵 w， 把 一 个 批 次 的 训练 样本 平均 分 成 右 干 份 (图 上 是 
(3) ， 分 别 给 到 三 个 书 点 去 计算 ,进行 正 同 传播 ， 其 次 ， 在 正 同 传播 后 会 得 到 铬 干 个 不 同 的 梯度 ， 这 个 束 是 反 向 传播 的 过 程 ， 需 
要 把 这 几 个 梯度 向 量 AP 都 传送 到 一 起 ， 然 后 求 出 一 个 平均 梯度 值 ， 最 后 ， 用 这 个 平均 梯度 值 骨 更 新 到 这 几 个 模型 上 去 ， 完 成 一 
个 批 次 的 样本 训练 迭代 过 程 。 这 里 提 到 的 过 程 大 家 可 能 会 网 得 有 些 隔 生 ， 不 过 没关系 后 面 都 会 提 到 |。 


这 束 意 味 着 理论 上 讲 TensorFlow 在 处 理 一 个 训练 任务 的 时 候 可 以 在 多 台 服 务 器 的 多 个 GPU 上 共同 进行 运算 以 加 快速 度 。 不 
过 要 注意 的 是 ， 如 果 你 的 网 络 不 够 大 ， 这 种 方式 有 点 像 高 冉 炮 打 蚁 子 一 样 不 经 济 ， 由 于 参数 的 传递 在 网 络 上 是 要 消耗 时 | 间 的 ， 对 
比 在 一 台 机 器 上 进行 传递 数据 来 说 ， 这 个 传输 消耗 的 时 间 束 显得 有 点 太 久 了 ， 甚 至 还 有 可 能 反而 会 让 训练 变 慢 。 


2.TensorBoard 一 一 看 得 见 的 训 | 练 
TensorFlow 有 一 个 比较 友好 的 组 件 ， 它 可 以 让 工作 人 员 在 训练 网 络 的 过 程 中 通过 仪表 盘 看 到 网 络 目 前 的 表现 情况 。 


可 视 化 几乎 是 任何 一 款 软件 都 期 望 进行 强化 的 部 分 ， 因 为 这 样 可 以 给 人 珊 来 更 好 的 体验 ， 即 便 这 些 人 已 经 用 惯 了 文字 界面 的 
Unix 系 统 族 。 
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Regex filter 


C] Split on underscores 


Horizontal Axis 


Runs 

europarl/c2w-daen/logs 
口 europari/c2w-deen/logs 
口 europari/c2w-ende/logs 
[C] europari/c2w-fren/logs 


0.000 — 40.00k — 80.00k 120.0k 


在 TensorBoard 中 你 只 需要 通过 非常 简单 的 配置 命令 : 
H 尼 动 
tensorboard --logdir=path/to/logs 


束 能 将 它 读 取 的 位 置 指向 日 志 路 径 ， 这 样 束 可 以 读 取 其 中 的 日 志 信 息 并 做 可 视 化 显示 。 上 默认 的 Web 界 面 位置 
在 http://localhost: 6006。 从 界面 上 可 以 看 到 一 个 训练 模型 的 准确 率 以 及 损失 函数 的 大 小 变化 趋势 。 


3.TensorFlow Serving 一 一 模型 


TensorFlow Serving 也 是 一 个 TensorFlow 产 品 群 的 开源 组 件 ， 可 以 部 署 成 一 个 RESTfu| 接 口服 务 一 一 类 似 于 网 站 上 的 HTTP 
形式 的 API。 是 一 种 用 于 机 器 学 习 模 型 的 高 性 能 开源 服务 系统 ， 专 为 生产 环境 而 设计 ， 并 针对 TensorFlow 进 行 了 优化 处 理 。 


TensorFlow 9Serving 系 统 非 单 适 用 于 大 规模 运行 能 够 基于 真实 情况 的 数据 并 会 上 友 生 动态 改变 的 多 重 模型 。 它 能 够 实现 : 
E 模型 生命 周期 管理 。 
: 使 用 多 重工 法 进行 试验 。 
| GPU 资源 有 效 使 用 。 


TensorFlow Serving 能 够 简化 并 加 速 从 模型 到 生产 的 过 程 。 它 能 实现 在 服务 器 架构 和 APl 保 持 不 变 的 情况 下 ， 安 全 地 部 署 新 
模型 并 运行 试验 。 除 了 原生 集成 TensorFlow， 还 可 以 扩展 服务 其 他 类 型 的 模型 。 下 图 显示 了 简化 的 监督 学 习 过 程 ， 赔 learner 输 
入 训练 数据 ， 然 后 输出 模型 。 
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TensorFlow Serving 使 用 (之 前 训练 的 ) 模型 来 实施 推理 一 一 基于 客户 端 呈现 数据 的 预测 。 因 为 客户 端 通常 会 使 用 远程 过 
程 调用 (RPC) 接口 来 与 服务 系统 通信 ，TensorFlow serving 提 供 了 一 种 基于 gRPC 的 参考 型 前 闯 实 现 ， 这 是 谷歌 开 友 的 一 种 高 
性 能 开源 RPC 架 构 。 当 新 数据 可 用 或 改进 模型 时 ， 加 载 并 和 迭代 模型 是 很 常见 的 。 事 实 上 ， 在 谷歌 许多 管线 经 常 运行 ， 一 旦 当 新 数 
据 可 用 时 ， 融 会 产生 新 版 本 的 模型 。 这 将 使 得 大 规模 协同 训练 复杂 任务 变 得 更 方便 。 


3.4 ”如 何 选 择 好 的 框 染 


作为 计算 模型 来 疯 ， 深 度 学 习 中 的 绝 大 部 分 基本 理论 早已 沉 泥 成 了 固化 的 计算 模块 、 函 数 或 者 算法 包 。 融 计算 模型 本 身 来 
说 ， 框 以 之 间 的 差别 不 会 大大， 也 不 可 能 大大， 除非 这 个 领域 的 理论 层面 得 到 了 极 大 的 突破 ， 而 且 这 个 突破 还 是 不 同 万 向 且 营 握 
在 个 别 组 织 手 里 的 。 而 现在 框架 之 间 的 差别 主要 出 现在 这 几 个 地 方 。 


一 属性 主要 由 底层 的 实现 语言 决定 ， 底 层 运行 比较 快 的 仍旧 是 实现 的 语言 。 理 论 上 说 ， 运 行 速度 最 快 的 仍旧 是 C 或 C++ 一 


这 
类 ， 离 着 CPU 指令 近 一 些 语言 效率 高 一 些 。 


笔者 用 过 Torch、TensorFlow、Chainer、Caffe 等 多 种 框架 ， 虽然 没 有 经 过 系统 地 压 测 和 对 比 以 及 时 下 流行 的 跑 分 测试 ,， 
但 仍然 有 个 比较 感性 的 感 党 一 一 相同 情况 下 Torch 运 行 的 速度 略 快 一 些 ， 而 TensorFlow 老 实说 确实 不 能 算 快 的 甚至 是 这 几 款 里 
面 比 较 慢 的 。 不 过 笔者 从 来 不 觉得 这 是 什么 大 问题 ， 这 种 效率 的 差距 仪 仪 是 零点 几 倍 或 者 一 点 几 倍 ， 而 真正 在 工程 实现 方面 的 差 
距 大 多 来 自 样 本 数量 、 网 络 设计 等 方面 ， 这 些 方 面 的 差距 可 能 都 是 一 两 个 数量 级 的 ( 差 10 倍 或 者 100 倍 ) ， 所 以 这 种 效率 不 是 最 
重要 的 参考 标志 。 


第 二 ， 社 区 活跃 度 。 


这 些 开源 的 项 目 叶 然 多 ,但 是 社区 活跃 与 否 是 个 非常 重要 的 因素 ， 甚 至 几乎 是 首选 的 因素 。 活 路 的 社区 意味 着 有 更 多 的 人 正 
在 使 用 这 样 一 个 项 目 ， 会 有 更 多 的 人 贡献 代码 ， 提 交 Bug， 允 到 错误 你 也 很 容易 找到 前 人 躁 坑 留 下 的 垫 卦 石 。 因 而 做 起 项 目 来 风 
险 也 相对 比较 小 ， 学 习 起 来 进步 也 会 快 一 些 。 


第 三 ， 语 言 。 


这 几乎 是 最 不 重要 的 一 个 方面 ， 因 为 不 管 什 么 语言 ， 实 现 的 框架 大 多 都 会 文 持 Python 的 “驱动 ”， 或 者 我 们 称 接 口 。 当 然 
也 有 很 多 比较 执 掀 的 框架 只 提供 人 家 目 己 原生 的 接口 ， 例 如 Torch 只 支持 Lua 脚 本 ，CNTK 只 支持 C++ 等 。 


襄 它 不 重要 是 因为 ， 在 这 样 一 个 应 用 场景 中 网 络 建立 的 钦 辑 比较 有 限 ， 所 以 涉及 的 语法 内 容 也 非 党 有限， 学 习 成 本 也 不 高 ， 
反正 从 逻辑 和 模型 层面 是 没有 郑 别 的 。 


应 该 说 TensorFlow 在 这 些 方面 做 得 还 都 是 令 人 满意 的 。 首 先 它 有 着 非常 活跃 的 社区 : www.tensorflow.org， 主 页 的 日 均 
PV 有 40 到 50 万 之 多 。 这 对 于 一 个 小 众 化 的 技术 网 站 已 经 是 个 不 得 了 的 数字 了 。 
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它 的 英文 社区 比 中 文 社区 活跃 得 多 ， 而 且 在 stackoverflow 上 的 问题 讨论 也 非 党 多 
(https://stackoverflow.com/questions/tagged/tensorflow) ， 目 前 有 8000 多 个 被 跟 帖 的 帖子 ， 每 天 都 会 有 不 少 新 帖 出 来 ， 
所 以 在 成 功 的 路 上 你 不 会 珀 单 。 


Q [tensorfiow] | 


3 stackoverflow Questions Jobs Documentation Tags Users 
BETA 


Log In Sign Up 


frequent votes active unanswered 


featured 


TensorFlow is an open source library for machine learning and machine intelligence. It is developed by Google and 
became open source in Nov. 2015 


Tagged Questions info newest 


learn more... topusers synonyms  tensorflow jobs 


Merge layer keras with tensorflow backend 
| wanted to merge two sequential models input into one using Merge layer. But it is showing me error. | am 
using image, with size 128x128 (RGB image) and batch size is 32. The error coming is : ... 


answers 


tensorflow — deep-earning keras  conv-neural-network X keras-layer 


4 views asked 24 mins ago 


bi Rahul Paul 
Lp 


ValueError Argument must be a dense tensor - Python and TensorFlow 


I'm extracting some portions of my code that might be relevant to the issue I'm having: from PIL import Image 
import tensorflow as tf data = Image.open( 1-enhanced. png) raw data — data ... 


answers python asked 2 hours ago 


of Simplicity 
> 4 
17 views x 10.9k © 52 e 143 e223 


tensorflow 


8,518 


questions tagged 


Ask Question 


tensorlow about » 
BLOG 
口 Stack Overflow Podcast #104 — Jenn 


Schiffer Talks to Us about Fog Creek's 
New... 


Related Tags 


python x 3489 
machineteaming x 1075 
deeptearning x 1000 
neural-network x 751 
keras x 356 
conv-neural-network x 291 


python-27 x 281 


语言 嘛 ，Python 肯 定 是 首选 ， 笔 者 大 多 是 使 用 Python 2.7+TensorFlow 的 方式 来 工作 的 ， 很 方便 。 


性 能 束 像 我 刚才 所 说 的 ， 虽 然 感 响 上 并 不 快 ， 但 是 满足 目前 的 工作 已 经 足够 了 。 而 且 这 种 数量 级 的 效率 提升 是 无 法 通过 更 换 


一 个 框架 来 实现 的 。 


总 体 来 说 TensorFlow 应 该 是 折 有 深度 学 习 框架 中 比较 适合 用 来 进行 工程 应 用 的 。 


3.5 ”安装 TensorFlow 


在 整个 安 和 的 最 开始 ， 我 们 强烈 建议 安 半 Anaconda， 因 为 它 已 经 集成 了 很 多 Python 的 第 三 方 库 。 安 委 它 乙 后 残 可 以 不 用 


再 去 一 个 一 个 地 下 载 这 些 库 并 解决 它们 之 间 的 依赖 天 系 了 ， 是 十 分 方便 的 。 


首先 前 往 continuum 站 点 ， 下 载 地 址 为 https://www.continuum.io/downloads。 


下 载 Anaconda (本 书 用 的 是 4.2.0 版 本 ) , 适用 于 Python2.7 的 版 本 。 
下 载 完 后 ， 执 行 安装 ， 命 令 如 下 : 
bash Anaconda2-4.2.0-Linux-x86 64.sh 


SUR, B, VW: 


sudo reboot 


Anaconda 4.2.0 


For Linux 


Anaconda is BSD licensed which gives you permission to use Anaconda 


commercially and for redistribution. 
Changelog c 


1. Download the installer 
2. Optional: Verify data integrity with MDS or SHA-256 (7 
More info c 
3. In your terminal window type one of the below and Follow the 
instructions: 
Python 3.5 version 


NOTE: Include the "bash" command even if you are not using the bash shell 


建立 FensorFlow 的 运行 环境 ， 并 将 其 激活 ， 执 行 : 


Download For Linux 


Python 3.5 version 


64-BIT INSTALLER (455m) 


r 


32-BIT INSTALLER (373M) 


—— —| ——— 


—— 


"diii Python 2.7 version R 
Ki 64-BIT INSTALLER (446M) i ) 


-—.- 2:5» 
— — 


f 


"E: m a 


32-BIT INSTALLER (365M) 


conda create -n tensorflow python-2.7 


source activate tensorflow 


这 样 束 激活 了 虚拟 环境 。 


执行 以 下 代码 进行 TensorFlow 的 安装 : 


pip install tensorflow 


执行 以 下 代码 测试 TensorFlow 是 否 安 装 成 功 ， 运 行 一 个 Hello TensorFlow, 


S python 


>>> 


>>> 


>>> 


222 


import tensorflow as tf 
hello = tf.constant('Hello, 
sess - tf.Session() 

print (sess.run(hello)) 


Hello, TensorFlow! 


n 
"P 
>>> 
42 


>>> 


a = tf.constant (10) 
b = tf.constant (32) 
print (sess.run(a + b)) 


TensorFlow! ' ) 


当 没 有 报错 ， 且 界面 出 现 “Hello，TensorFlow! ”字样 时 ， 说 明 安 和 成 功 。 


3.6 小 结 
TensorFlow 襄 到 底 还 是 一 系列 的 工具 。 对 于 一 个 工程 技术 人 员 或 实际 深度 学 习 问 题 的 研究 员 来 襄 ， 了 解 TensorFlow 的 基本 
原理 和 使 用 方法 就 够 了 。 我 们 的 精力 应 该 更 多 地 放 在 用 模型 解决 实际 问题 这 一 方面 。 


对 TensorFlow 本 身 的 架构 ， 我 想 作为 业余 研究 或 者 学 术 研 究 是 可 以 的 ， 而 作为 商业 性 的 研究 ， 其 投入 天 出 比 可 能 会 低 到 你 
目 己 受 不 了 的 地 步 。 尤 其 是 不 建议 大 家 去 修改 里 面 的 代码 来 尝试 做 “改进 ”。 因 为 如 果 你 的 代码 在 提交 到 Github 上 之 后 没有 人 
愿意 同 你 合并 ， 那 么 就 意味 着 这 个 Branch 还 是 要 你 自己 维护 到 死 。 


有 关 TensorFlow 原 理性 的 东西 不 用 了 解 得 太 深 ， 就 像 你 学 用 Java 未 必 一 定 要 把 Eclipse[1 的 代码 和 实现 原理 学 懂 一 样 。 
TensorFlow 上 手 非 党 容易 ， 后 面 我 们 会 给 多 个 例子 来 教 大 家 怎么 使 用 TensorFlow 搭 建 一 个 完整 的 网 络 并 训练 出 满意 的 结果 。 


[1] Java 环 境 的 一 种 IDE 工 具 。 
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S242 前 馈 神 经 网 络 
M45 手写 板 功能 


国 第 6 章 ” 卷 积 神经 网 络 


MES 循环 神经 网 络 


4 Billet esp 


从 这 一 章 我 们 开始 接触 最 简单 最 朴素 的 神经 网 络 ， 叫 做 前 馈 神经 网 络 (feedforward neural network) 。 在 这 种 神经 网 络 
中 ， 各 神经 元 从 输入 层 开始 ， 接 收 前 一 级 输入 ， 并 输入 到 下 一 级 ， 直 至 输出 层 。 整 个 网 络 中 无 反馈 ， 可 用 一 个 有 向 无 环 图 
(directed acyclic graph, DAG) 表示 。 


18S I TAT iets ATA: 一 种 叫 Back Propagation Networks 一 一 区 同 传 播 网 络 (以 下 简称 BP 网 络 ) ， 一 种 叫 
RBF Network 一 一 径 向 基 阔 数 昼 经 网 络 。Propagation 的 含义 是 传播 ， 所 以 也 叫 作 肥 同 传 播 昼 经 网 络 。 从 名 字 上 可 能 看 不 太 明 
日 它 是 号 么 工作 的 ， 没 关系 ， 只 要 耐心 看 下 去 很 快 你 融和 道 了 ， 这 个 过 程 并 不 复杂 。 在 深度 神经 网 络 的 学 习 过 程 中 你 会 听 到 很 多 
新 名 词 ， 但 是 不 要 臣 惧 ， 没 有 任何 一 个 新 名 词 是 高 深 到 无 法 掌握 的 概念 ， 只 要 理解 了 它 的 意义 残 会 帝 得 一 切 天 系 都 是 顺 其 目 然 
的 。 


大 家 请 注意 ， 这 一 章 的 内 容 里 然 不 算 难 ， 但 是 非常 重要 ， 因 为 几乎 所 有 在 深度 学 习 中 涉及 的 最 为 天 键 性 的 问题 在 这 一 草 几 平 
都 涵 基 了 。 我 们 以 最 简单 的 BP 网 络 为 例 ， 看 看 最 简单 的 神经 网 络 是 怎么 设计 和 工作 的 ， 我 们 先 来 看 看 它 的 结构 。 


4.1 网络 结 构 


BP 网 络 是 所 有 的 神经 网 络 中 结构 最 为 单纯 的 一 种 。 


K 
e 


i A Js 隐藏 层 输出 层 MAZ KREI ”隐藏 层 2 ”输出 层 


一 般 习 惯 上 我 们 喜欢 把 网 络 画 成 “左边 输入 ,右边 输 出 ”的 结构 ， 一 个 向 量 从 左边 进入 ， 经 过 网 络 的 运算 从 右边 产生 一 个 输 
出 结果 。 融 像 上 面 这 样 ， 当 然 前 饥 昼 经 网 络 的 结构 不 是 一 种 固定 的 ， 上 面 这 两 个 图 只 是 随意 列 出 来 了 两 种 。 


第 一 个 神经 网 络 有 2 层 ， 每 层 4 个 节点 。 第 二 个 神经 网 络 和 它 相 比 也 是 大 同 小 异 ， 区 别 是 层 数 不 同 : 多 了 一 个 隐藏 层 ; A 
外 ， 每 一 层 的 神经 元 数量 也 不 同 层 5 个 ,一 层 3 个 ， 而 且 最 后 的 输出 层 只 有 一 个 神经 元 。 这 些 都 是 与 第 一 个 神经 网 络 的 不 
同 之 处 ， 但 它们 也 都 是 前 馈 仲 经 网 络 。 你 别 看 节点 数目 不 一 样 而 且 不 对 称 一 一 反正 没 人 规定 过 这 种 网 络 必须 对 称 。 这 些 并 不 
是 “问题 ”， 神 经 网 络 本 身 残 有 很 多 种 设计 模式 ， 并 且 会 在 不 同 的 模式 下 产生 不 同 的 训练 效果 和 运用 特点 。 


独 经 网 络 有 一 个 不 太 好 理解 的 地 万 融 是 它 的 组 成 结构 太 复 杂 ，“ 元 件 ” 太 多 一 层 一 层 的 昼 经 元 ， 会 使 得 模型 看 上 去 很 
不 直观 。 那 好 ， 我 们 就 创造 一 个 最 简单 的 BP 网 络 结构 吧 。 把 这 一 个 网 络 研究 明日 了 ， 表 复杂 的 网 络 也 束 不 在 话 下 了 。 


输出 层 


O 


BR, PATRAS A, ERIE, WERA, —2E. 


x 我 们 也 让 它 最 简单 化 ， 束 一 个 维度 个 实数 。 


1 
隐藏 层 h 和 输出 层 o 这 两 层 都 是 z==wx+b 和 1+ 的 组 合 。 那 么 这 个 “网 络 ” (应 该 叫 “ 线 ”更 恰当 ) 一 旦 输入 了 x 和 y 之 
后 ， 它 残 可 以 开始 训练 过 程 了 。 


4.2 ett leans lek 


BP 神经 网 络 的 训练 其 实 跟 我 们 以 前 接触 过 的 基于 统计 的 机 器 学 习 模 型 很 相近 ， 如 果 熟 悉 线 性 回归 的 朋友 那 束 会 党 得 这 个 过 
程 非常 简单 了 。 如 果 你 不 熟悉 也 没关系 ,我 们 就 先 用 线性 回归 的 训练 作为 例子 看 一 下 这 是 一 个 什么 过 程 ， 看 完了 就 知道 确实 很 简 
FA, 

“机 器 学 习 ” 顾 名 思 义 融 是 机 器 通过 对 观测 到 的 事物 进行 归纳 ， 进 而 总 结 出 它们 之 间 的 规律 、 天 系 一 类 。 在 整个 训练 的 过 程 
中 ,我们 倒 要 看 看 一 个 线性 回归 的 模型 究 葛 学 到 了 些 什 么 ， 怎 么 学 到 的 。 作 为 铺垫 ， 线 性 回归 的 训练 过 程 如 果 能 够 看 明日 ， 那 么 
下 面 再 看 这 个 两 层 的 神经 网 络 也 会 非常 清晰 简单 。 


1. 样 本 
一 维 线性 回归 可 以 说 是 所 有 机 器 学 习 中 最 简单 的 一 种 了 ， 大 概 是 这 人 么 个 感 沈 。 


首先 ， 我 们 会 在 一 些 场景 下 观察 到 很 多 很 多 的 数据 对 (pair) ， 它 们 一 起 出 现 。 例 如 ， 在 一 次 实验 中 我 们 友 现 一 个 小 车 在 一 
个 推力 的 作用 下 做 加 速 运动 。 用 手中 的 秒表 和 一 个 速度 表 ， 我 们 可 以 得 到 一 些 读数 。 


Ty 速度 (m/s) Ty 速度 (m/s) 


虽然 我 知道 绝 大 部 分 的 教学 环境 里 不 会 预备 速度 表 这 种 高 科技 的 玩意 儿 ， 有 个 米 尺 测 距 离 有 个 秒表 测 时 间 倒 确实 可 能 。 这 事 
情 我 们 融 不 细 究 了 ， 为 了 况 明 简便 一 些 ， 我 们 融 用 这 种 方式 来 假设 吧 。OK， 那 这 样 的 话 我 们 融 可 以 得 到 类 似 上 表 里 这 种 观测 记 
录 。 


xf 
> 
ri 
HI 


是 在 观察 中 进行 的 归纳 和 假设 ,至少 看 上 去 这 两 个 数据 确实 给 人 这 样 的 感 党。 


我 们 尝试 着 画 一 条 线 从 这 一 堆 点 中 穿 过 去 ， 会 友 现 这 条 线 基 本 上 是 可 以 满足 通过 或 接近 所 有 的 点 的 。 那 么 这 条 和 直线 丈 是 这 些 
点 的 横 纵 坐标 的 关系 描述 一 一 用 (x, y) 表示 也 可 以 ， 用 (t, s) 表示 也 可 以 。 从 数据 科学 的 角度 来 看 就 是 要 解决 数据 的 量化 和 
天 系 ， 而 它们 之 间 的 量化 表达 式 束 是 


y=wxtb 
这 惑 是 它们 之 间 的 关系 。 


现在 的 问题 束 变 成 了 ， 我 们 通过 一 种 方式 把 待定 的 系数 w 和 b 求 出 来 束 算 OK 了 。 用 什么 原则 来 确定 w 和 b 的 大 小 呢 ? 毕 竟 计 
算 机 是 不 会 像 人 这 样 去 换 点 作 图 的 ， 它 只 会 做 加 减 乘 除 和 比 大 小 ， 甚 至 乘除 也 是 用 加 减 来 做 的 , 减 也 是 用 加 来 做 的 。 怎 么 办 呢 ? 
其 实 方法 也 是 有 的 ， 我 们 先 来 看 看 一 种 叫 “ 和 牛顿 法 ”的 东西 。 

2. 牛 顿 法 

牛顿 法 从 名 字 来 看 有 点 不 知 所 云 ， 不 过 说 日 了 这 是 一 种 通过 夫 代 法 来 解 方程 的 思路 。 虽 然 在 神经 网 络 和 线性 回归 的 训练 中 这 
个 万 法 没 办 法 直接 使 用 ,但 是 对 于 我 们 开阔 思路 还 是 大 有 好 处 的 。 

迭代 法 的 核心 思路 融 是 用 步 步 远近 的 方式 来 接近 理论 上 的 精确 值 ， 只 要 友 现 当前 的 试探 值 已 经 收敛 到 一 个 满足 场景 要 求 的 误 
差 精 度 就 可 以 判断 迭代 结束 ， 用 这 个 试探 值 来 充当 求解 的 目标 值 。 这 种 方法 可 以 使 很 多 “直接 法 ”i 无 法 求解 的 问题 得 到 一 个 足 
够 精确 的 近似 解 。 例 如 ， 我 们 都 知道 一 元 二 次 方程 y=ax<+bx+c 通 过 配方 和 移 项 可 以 得 到 它 的 求 根 公式 为 


-bt4b -4ac | 4ac -b° 
y = ——— > 极 值 为 》= 一 一 一 一 
2a 4a 
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运 代 法 与 此 不 同 ， 是 通过 多 次 “试探 性 ”的 计算 并 比 对 与 这 个 真实 值 之 间 的 差距 是 人 否 缩小 来 得 到 解 。 这 种 以 有 限 成 本 的 “次 
优 ”取代 无 限 成 本 的 “最 优 ” 的 哲学 思想 是 每 一 个 工程 人 员 都 可 以 借鉴 的 思维 方式 。 迭 代 法 中 有 一 个 经 典 的 方法 ， 就 是 我 们 现在 
要 说 的 牛顿 和 迭代 法 (Newton' s method) ， 或 称 牛顿 法 ， 它 是 牛顿 在 18 世 纪 提 出 的 一 种 在 实数 域 和 复数 域 上 近似 求解 方程 的 
万 法 。 

例如 有 一 个 一 元 方程 : 

f (x) =0 

先 不 管 f (x) 具体 的 表达 式 是 什么 ， 或 复杂 或 简单 ， 假 设 f (x) =0 真 的 有 解 ， 而 r 是 满足 f(x) =0 的 解 ， 我 们 怎么 找到 这 个 r 
呢 。 要 知道 f (x) 的 表达 式 可 能 真 的 干 奇 目 怪 ， 还 真 不 见得 能 通过 人 的 手 算 、 移 项 、 配 方 .…… 各 种 方法 快速 得 到 解 。 那 融 不 妨 用 
EX X E ERGAB RAE. 


设置 一 个 初始 值 xX0， 代 入 函数 y=f (x) ， 则 平面 直角 坐标 系 上 会 有 后 


这 个 点 沙 人 在 曲线 y=f (x) E. 


过 点 (xo, f (xo) ) 做 y=f (x) 的 切线 Lo，Lo 的 方程 束 应 该 是 : 


y=f(x0) - PG) Ex.) 


其 中 f (x) 就 是 f (x) 的 一 阶 导数 。 


所 谓 导 数 ， 标 准 名 称 叫 做 导 函 数 (derived function) ， 这 是 高 等 数学 中 一 个 很 基础 而 且 很 重要 的 概念 。 导 数 是 一 个 消 数 而 


不 是 一 个 数字 ， 以 刚才 的 立 数 f(x) 为 例 ， 贴 看 这 个 冰 数 的 曲线 去 做 切线 ， 在 曲线 上 每 一 点 所 做 的 切线 的 斜率 融 是 导 阔 数 在 这 一 


RAJE, SARAF (x) 来 表示 。 


y-x 


Ix 


以 y=x< 为 例 ， 对 图 形 上 的 每 个 点 都 做 切线 ， 都 取 切 线 斜率 的 话 会 得 到 一 系列 的 x 和 和 斜率 值 ， 这 新 的 对 应 关系 x 和 和 斜率 值 y 就 是 
我 们 刚刚 说 的 f (x) 函数 了 。 这 同样 是 一 个 函数 ， 而 输出 值 y 的 意义 则 表示 原 图 数 f (x) 的 斜率 。 有 经 验 的 朋友 可 能 一 下 子 残 可 


以 看 出 答案 ，y=x< 这 个 函数 的 导 函数 是 y=2x。 


回来 看 刚刚 说 过 的 方程 y=f (xo) +f (xo) (x-x0) , 如果 你 看 不 明白 这 个 表达 式 是 怎么 出 来 的 ， 那 就 做 个 代 换 ， 以 我 们 最 
容易 接受 的 y=kx+b 的 斜率 与 截 距 的 方式 来 表示 ， 那 f (xo) 就 是 k。y=f (xo) +f (xo) (x-x0) 就 可 以 改写 为 
y=kx+ (f (xo) -kxo) ， 从 图 上 来 看 截 距 就 是 f (xo) -kxo. 


y=kxt+b 


(xo, faxo) 


f(x) - xg | 
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得 到 的 x1 为 ?的 一 次 近似 点 。 


然后 照 戎 卢 画 杜 在 曲线 y=f (x) 上 以 相同 方式 过 点 (x1, f (x1) ) 做 y=f (x) 的 切线 L1， 得 到 L1 与 X 轴 的 交点 横 坐 标 


得 到 的 x2 为 ! 的 二 次 近似 点 。 


LACS CUE TIA, ARARA : 


Xn 束 称 为 [的 n 次 近似 点 的 值 ， 这 个 公式 就 是 牛顿 迭代 公式 。 整 个 迭代 的 收 全 过 程 束 像 下 图 这 样 ， 通 过 n 次 的 帝 近 最 后 得 到 r 的 


近似 值 。 


1 / 


y=), 
(Xo, (Xo) 


X 


刚刚 这 种 融 是 使 用 一 次 一 次 迭代 来 逼近 最 优 解 〈 局 部 最 优 解 ) 的 过 程 ， 而 且 和 牛顿 迭代 公式 是 可 以 推广 到 高 维 去 使 用 的 ， 比 如 
一 维 、 三 维 且 各 维度 可 导 情 况 。 不 管 导数 多 么 复杂 ， 这 种 方法 都 是 通用 的 。 怎 么 样 ， 用 计算 机 求 方程 的 根 是 不 是 也 很 容易 了 ? 


既然 说 到 导数 这 种 东西 我 们 束 做 个 补充 说 明 。 这 东西 看 上 去 确实 让 人 感 完 非 党 陌生 ， 人 至 少 在 日 常生 活 中 没有 人 会 用 这 么 一 个 
数学 文言 词 来 交流 ， 但 是 这 种 东西 却 是 我 们 经 常 使 用 的 ， 不 信和 来 看 。 我 们 平时 说 的 速度 一 一 汽车 的 速度 表 上 写 着 40km/h， 丈 是 
一 个 导数 的 概念 哦 ， 我 们 来 看 看 是 起 么 说 的 。 


FEO PRE OAS AAS: 


S 一 Vt 


其 中 s 是 位 移 ，v 是 速度 ，t 是 时 间 。 这 个 公式 的 概念 是 说 我 们 按照 速度 v 前 进 ， 例 如 一 辆 汽车 每 秒 钟 前 进 5 米 ， 当 我 行进 了 时 
间 t 之 后 ， 例 如 10 秒 钟 ， 这 时 候 我 们 会 得 到 一 个 位 移 距离 的 大 小 ， 融 是 s。 在 刚刚 这 个 例子 中 我 们 很 容易 残 能 得 出 ，s=5x10=50 
米 。 没 错 吧 ? 


= 


但 是 ， 我 们 可 别 志 了 ， 在 这 个 公式 中 ，s 是 可 以 通过 尺子 量 出 来 的 ，t 是 可 以 用 秒表 量 出 来 的 ， 这 两 种 数据 是 非常 容易 得 全 
的 ,但 是 你 在 初中 课堂 上 见 过 用 什么 直接 去 量 速度 v 吗 ? 


S 


而 恰恰 相反 ， 我 们 通常 是 使 用 :来 进行 速度 v 的 描述 ， 用 一 段 测 量 时 间 的 t 和 其 对 应 的 位 移 s 来 定义 其 平均 速度 v， 只 要 这 个 t 
不 是 0， 刚 刚 的 这 个 公式 就 有 意义 。 

对 于 我 们 最 为 熟悉 的 匀速 直线 运动 来 说 ，v 在 整个 测量 的 过 程 中 表现 得 非常 理想 一 一 它 不 会 变化 ， 任 意 时 刻 v 都 是 一 个 定 
值 ， 所 以 s=vt 肯 定 是 不 会 有 什么 问题 的 。 然 而 ， 如 果 在 移动 的 过 程 中 速度 v 是 变化 的 ， 时 快 时 慢 ， 那 在 知道 {的 情况 下 s 怎 么 求 ? 
还 能 按照 刚刚 s=vt 直 接 乘积 求解 吗 ? 显然 不 能 。 那 我 们 怎么 做 才 更 为 科学 合理 呢 ? 先 别 着 急 ， 我 们 往 下 看 。 

我 们 知道 速度 v 的 定义 本 身 就 是 指 在 一 个 瞬时 状态 下 或 者 一 段 时 间 内 的 位 移 s 与 这 段 时 间 t 的 比值 ， 我 们 用 更 容易 认 知 到 的 且 
稳定 的 s 和 t 定 义 了 v。 “在 匀速 运动 的 状态 下 也 不 会 看 出 有 任何 不 有 的 地 方 ， 只 是 我 们 刚才 突然 想到 ， 如 果 v 不 是 匀速 运动 ， 而 
是 在 做 变速 的 运动 ， 反 正 最 后 运动 时 间 确 实 为 t， 总 位 移 也 确实 为 s， 这 种 情况 下 ，”! 中 求 出 的 v 就 是 一 个 平均 值 了 ,而 不 是 一 个 
我 们 能 够 较 好 地 、 客 观 地 描述 真实 的 瞬时 v 的 值 了 一 一 因为 它 每 一 刻 可 能 都 不 一 样 ， 不 是 一 个 定 值 。 这 个 时 候 我 们 可 以 很 自然 地 
荫 生 出 一 个 想法 ， 那 就 是 ， 能 不 能 试 着 用 瞬时 状态 的 位 移 s 和 瞬时 状态 的 时 间 t 来 求 出 瞬时 状态 的 “也 就 是 那 一 瞬间 的 速度 大 


小 。 其 实 是 可 以 的 ， 这 种 定义 其 实 束 是 我 们 用 到 的 导数 的 定义 。 


那 我 们 怎么 来 考虑 某 一 刻 的 v 呢 ?从 原始 的 定义 来 看 ， 


$1 — So 


y = 
| 4g 


也 融 是 襄 ， 在 to 这 一 时 刻 ， 我 们 试 着 把 这 一 刻 的 to 先 记 下 来 ， 并 在 同时 记录 位 移 s0 的 位 置 。 然 后 在 蚂 短 请 刻 之 后 (想象 一 下 
吧 ， 要 多 短 有 多 短 ， 反 正 越 短 越 好 只 要 不 是 0) ， 我 们 在 t1 时 刻 记录 下 这 一 刻 的 时 | 间 ， 并 同时 记录 下 s1。 如 果 我 们 能 够 求 得 此 时 


S1 — So 


刻 的 "““ ,其实 下 是 求 得 了 此 刻 的 v。 你 不 用 担心 因为 时 间 间 隔 太 短 会 求 出 错误 的 值 ， 比 如 求 出 一 个 0 速度 来 ， 不 会 的 ， 因 为 s1- 


sO 在 减 小 的 同时 t1-to 也 在 减 小 ， 这 个 比值 会 趋 于 一 个 实数 的 。 


我 们 想 想 看 ， 这 种 情况 是 不 是 当 我 手 里 有 一 个 市 有 精确 时 间 刻 度 的 录像 机 残 能 轻松 实现 了 ”如 果 连 每 秒 数 百 米 速度 的 子弹 都 
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能 捕捉 得 这 么 清楚 的 话 ， 记 录 汽 车 的 速度 当然 不 在 话 下 。 


我 们 可 以 轻松 得 到 一 个 s=s (t) 的 表达 式 ， 像 图 上 所 示 这 种 可 以 精确 到 0.001 秒 办 的 录像 机 在 任何 一 个 0.001 分 度 的 时 刻 都 能 
记录 下 那 一 瞬间 的 时 间 和 对 应 的 位 移 了 。 然 后 怎么 玩 ? 假设 我 们 一 共 录 制 了 10 秒 的 内 容 ， 那 就 从 0 秒 开始 到 10 秒 把 录像 中 位 移 位 
置 的 读数 一 个 一 个 画 在 EXCEL 里 跑 。 至 于 录像 机 的 时 间 分 度 是 不 是 够 小 ， 区 别 如 何 ， 我 们 看 看 下 面 这 几 个 图 就 能 感觉 出 来 了 。 对 
于 一 个 加 速度 a=6m/s< 的 匀 加 速 运动 的 物体 来 说 ， 你 会 得 到 以 下 的 图 和 对 应 的 1 秒 以 内 的 各 种 参数 值 。 


6m/s » 
5m/s » 
4m/s 由 
3m/s 9 
2m/s 9 
| m/s 9» 
Om/s 94 会 会 it it it 会 会 会 会 个 
Os O.ls 0.2s 0.3s 0.4s O.5s 0.6s 0.7s O.8s 0.9s 1.0s 


T T 7 T T 7 T fr 全 7 
0.1s 0.25 0.3s O.4s 0.5s O.6s 0.7s O.8s 0.9s 1.08 
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5m/s » 
4m/s » mm 
3m/s 9 ——— 
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Os O.Is 0.2s 0.3s 0.4s 0.5s O.6s 0.7s O.8s 0.9s 1.0s 


t (s) a(m/s) | s(m) 5 (m/s) 
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SGA, BEANE). ENE? SPARTA, MOTE, MOBS, MIRE REAR, RAIKRERE A 
率 为 6 的 直线 而 不 再 是 最 开始 我 们 画 出 来 的 斜率 为 0 的 直线 。 


在 用 高 速 报 像 机 录像 所 得 到 的 s=s (t) 这 个 函数 中 ， 速 度 的 瞬时 值 为 : 


.S$S(1)— s(t) 
= |Jim ———— —— 


[in l — la 


这 里 又 出 现 一 个 表达 陈 lim， 读 作 limit ( 纯 英 文 读 法 ) , SMe RR . SE Bato (不 管 是 1.035s， 还 是 


V(t, 


5.722s 之 类 的 某 一 个 具体 值 ) 。 我 们 看 这 个 公式 非常 眼熟 ， 这 不 就 是 函数 极限 的 公式 么 ? 没 错 ， 回 答 正确 。 那 下 面 精确 与 否 几乎 
只 取决 于 我 用 的 高 速 摄像 机 的 时 间 分 度 精度) 了 ， 因 为 从 观测 者 的 角度 来 看 ， 在 这 个 公式 里 ，t 只 能 取 比 to 大 的 最 小 的 一 个 观 
测 值 ， 那 也 就 是 说 ， 精 度 是 0.1s 的 摄像 机 ， 那 t-to 最 小 也 只 能 求 到 0.1s 的 瞬时 (平均 ) 速度 ， 精 度 是 0.01s 的 摄像 机 ，t-t0 最 小 只 
能 求 到 0.01s 的 瞬时 平均) 速度 ….. 这 个 表达 式 会 不 会 让 你 们 误解 是 摄像 机 购买 时 应 该 趋 近 于 高 端 机 的 过 程 ? 好 吧 ， 我 为 给 
你 们 带 来 的 误导 表示 娄 意 。 我 只 是 想 在 这 里 让 大 家 明确 一 个 概念 ， 那 就 是 通过 s (t) 求解 瞬时 速度 的 思路 ， 大 家 明白 了 吗 ? 

如 果 还 不 是 很 清晰 的 话 ， 那 我 们 就 来 看 一 个 例子 ， 很 快 就 会 更 为 明确 . 


如 果 有 一 个 非 义 速 运动 的 物体 ， 它 的 运动 位 移 公 式 可 以 表示 为 


s(1)=2t +4 


你 可 以 认为 束 是 通过 录像 机 观察 出 来 ， 最 后 用 回归 等 方法 归纳 为 这 个 公式 的 。 那 在 t=5s 时 的 瞬时 速度 是 多 大 呢 ? 那 我 们 束 
求 一 下 极限 试 试 员 : 


v(t) = lim (2(t+ A) - 4)- Qt +4) 
A->0 (t+ A) -t 
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偏 移 值 。 后 面 的 部 分 表示 的 是 在 t 时 刻 的 位 移 量 ， 两 者 的 差 表示 任意 t 时 刻 后 经 过 A 这 段 时 间 的 位 移 ， 也 就 是 A 时 间 的 位 移 ， 而 分 
"m im 3 7505) 
母 项 人 实际 就 是 t+A 与 {的 差 值 ， 这 可 以 根据 c" cs 的 定义 得 到 。 我 们 化 简 一 下 看 : 


. 2t! c AAE-2N. - 4A—2f -4 
lim 
A—0 A 


_ 4At+ 2A? 
lim 
A—0 A 
lim 4t + 2A 


A—0 


这 么 一 来 就 利索 多 了 ， 一 下 子 化 简 成 了 我 们 前 面 说 的 函数 极限 问题 ， 当 A 趋 于 0 的 时 候 ，2A 也 是 趋 于 0 的 ， 其 实 表达 式 
“就 只 剩 下 了 4t 了 ， 速 度 变 成 了 只 与 时 间 t 成 正比 的 一 个 表达 式 。 我 们 刚刚 想 求 的 是 t= 5s 的 时 候 的 瞬时 速度 ， 代 入 ， 那 就 
是 20m/s 了 。 怎 么 样 ， 是 不 是 超级 简单 ? 


我 们 刚刚 求 的 这 个 过 程 ， 你 别 小 看 ， 可 厉害 了 ， 因 为 我 们 可 不 光 求 出 了 第 5s 的 瞩 时 速度 ， 而 是 任意 时 刻 的 速度 我 们 代入 都 能 
求 出 来 。 而 刚刚 这 个 : 


S(t) — S(t, ) 


[ty f — lo 


s(t 4- A) — s(t) 


O= lim tA 


或 者 写作 : 


v(t) =— , 
dt 


表示 用 s 对 t 求 导数 。 这 里 的 ds 和 dt 其 实 指 的 就 是 As 和 At。 4 同样 可 以 记 作 s”(t) 或 者 s'， 意 为 导数 。 


刚才 这 个 讲解 是 天 于 导数 怎么 求 的 推导 过 程 ， 如 果 听 起 来 乏味 或 者 痪 得 没 必要 记 的 话 ， 那 融 只 需要 记 住 “一 个 冰 数 的 导数 值 
Pets eH E05 ASSIA” HALT. 


4. 导 数 补充 


既然 讲解 了 导数 的 合 义 和 推导 过 程 ， 那 在 这 里 我 们 需要 做 一 个 补充 ， 束 是 关于 多 个 立 数 组 合 形成 的 新 函数 导数 应 该 怎么 求 的 


通 党 我 们 还 会 遇 到 水 数 的 其 他 一 些 形式 或 者 变种 ， 比 如 |: 


y=g (x) f (x) 

这 种 我 们 权 且 叫 “ 连 乘 型 ”。 
还 有 一 种 : 

y=g (f (x) ) 

这 种 我 们 可 以 叫 "ERESEBÜ" , 


基本 上 这 两 种 万 式 的 组 合 可 以 用 来 表示 绝 大 多 数 复杂 函数 的 结合 过 程 ， 同 样 ， 如 果 我 们 了 解 了 这 两 种 消 数 求 导 的 过 程 也 丈 了 
解 了 绝 大 多 数 复杂 函数 的 导数 应 该 怎么 来 求 了 。 我 们 先 来 涡 “ 连 乘 型 ”的 过 程 。 


dy 


根据 导数 的 定义 ， 我 们 最 终 是 要 求 x， 那 么 我 们 就 根据 定义 来 用 标准 的 数学 极限 的 推导 方法 试 求 一 下 : 
dy dewo) 


dx dx 
us EOM Oe A) - 2/0) 
= iE 809 pe 0) 4 fes ry 
= lim EUA TEO rs A) limga) SL 
= g'(x)f (x) + g(x) f (x) 


“ 连 乘 型 ”的 [g (x) f (x) ]=9 (x) f (x) +g (x) f œ), RAAE, 


如 果 看 背 这 推导 党 得 头 晤 眼 化 也 没关系 ， 听 一 下 日 话 的 解释 。 对 于 这 种 “ 连 乘 型 ”的 六 数 组 合 ， 新 阔 数 的 斜率 相当 于 两 部 分 
线性 于 加 (加 和 ) ， 一 部 分 是 f (x) Sg (x) 的 斜率 相 乘 ， 一 部 分 是 9 (x) Sf (x) 的 斜率 相 乘 。 


我 们 再 看 看 “ 钨 套 型 ”的 求 导 怎么 做 。y=g (f (x) ) ， 我 们 要 求 [g (f (x) ) ]。 为 了 降低 难度 ， 我 们 设 f (x) =z, 
实际 上 ， 上 面 y=g (f (x) ) 就 被 代 换 成 了 

ye (2) 

z=f (x) 

这 样 两 个 等 式 了 。 如 果 y=g (f (x) ) 在 x 上 存在 导数 ， 那 么 : 


. Ay 
] 一 -一 一 , Z ~ _ EAS 二 上、 NA 
war EO ,这 个 z 是 我 们 刚刚 请 来 帮忙 的 ， 把 它 看 成 一 个 独立 的 变量 就 可 以 了 。 


Ay 12 
Az 8 4? ,这 个 a 是 一 个 无 穷 小 的 数 ， 可 以 认为 极为 接近 0。 两 边 同时 乘 以 Az， 可 以 得 到 : 


Ay-g (z) Az+aAz 


在 等 式 两 边 同 时 除 以 Ax， 会 得 到 : 


Ay Az Az 


一 Z Ch ——— 
m = g'( FAL I 


lim a= d era. 


lim — = e'(z)f'(x 
AA xr UI XU 


bmn, y-g (f (x) ) XP "REE" WKSRS SCM ERRER, RISE USURS—E—ECKSIBJSSSIBI. 
那 推广 一 下 ， 下 面 这 个 也 束 成 立 了 : 


[u(v(gCf DDI = 


du dv dg df 
dv dg df dx 


XZ S BPAGL, BEAIRTE. WR SE Raf (x) 的 变化 率 为 3 倍 ， 而 在 同一 点 9 (x) 的 变化 率 为 5 
倍 ， 那 么 当 它 们 府 套 在 一 起 ， 等 于 同时 做 了 两 个 变化 率 的 妓 加 一 一 15 倍 。 原 理 嘛 .…… 想 想 《 盗 梦 空 间 》 就 好 了 。 如 果 这 个 推导 过 
程 看 着 太 烧 脑 ， 那 束 别 细 究 了 ， 直 接 记 住 结 论 束 好 了 ， 我 们 后 面 在 编程 的 时 候 反 正 也 没有 直接 这 么 使 用 的 。 


-u'(v)v'(Gg)g Cf )f E) 


IE: 


导数 要 补充 的 是 最 后 一 个 定 X 。 不 是 所 有 遂 数 都 有 导数 存在 ， 人 至 少 有 一 些 函 数 是 在 一 些 定义 域 上 不 存在 导 消 数 
的 ， 这 种 情况 我 们 称 该 浮 数 在 某 点 上 不 可 导 。 我 们 来 举 个 例子 看 看 吧 。 


例如 有 这 样 一 个 尔 数 : 


y= || 


这 个 函数 的 图 像 很 好 理解 ，y 等 于 x 的 绝对 值 ， 那 么 这 融 是 一 个 “V” 字 形 的 图 像 。 


é< 


abs(x)” 的 图 表 


+A 


oe: 


18 -16 -14 -12 


-10 


x -0.044444444 y: 0044444444 
16 


14 


-8 -6 <4 -2 


PRES SNA, BRÉXy-|x|BS SA ERAS TS MRS, IX SRA, TEX > 0 的 时 候 ， 导 数 束 是 |， 因为 冬 


率 恒定 为 1， 这 没 哈 稀奇 的 ， 在 x < 0 的 时 候 ， 导 数 束 是 -1， 因 为 科 率 恒定 为 -1, 


在 x=0 附 近 ， 左 侧 的 冬 率 


其 实 也 没 必 要 纠结 ， 


-2 


这 也 是 一 目 了 然 ;， 麻 烦 出 现在 x=0 的 时 候 。 


是 -1， 而 右 侧 的 斜率 为 1， 你 说 这 种 情况 下 y=|x| 的 导数 y (0) 究竟 是 算 -1 呢 还 是 算 1 呢 ? 


几 是 这 种 左右 极限 不 一 样 的 情况 ， 在 数学 上 统统 被 定义 为 不 可 导 ， 因 为 左右 的 斜率 不 是 同时 趋 近 于 一 个 
。 那 么 这 个 导数 y (x) 画 出 来 的 图 像 是 这 样 : 


0.5 


0.5 1 2.5 


这 个 地 方 的 x=0 的 情况 是 没有 定义 的 ， 你 看 在 函数 图 像 上 也 被 抠 掉 了 。 我 们 称 y=|x| 在 x=0 的 时 候 不 可 导 。 记 住 有 这 人 么 个 事情 
就 行 了 一 一 并 不 是 所 有 的 遂 数 在 所 有 其 定义 域 上 都 存在 导 孙 数 。 


6. 开 始 训练 


刚刚 插入 了 这 么 多 关于 导数 和 进 代 法 的 介绍 ， 其 实 主要 是 为 了 铺垫 这 一 节 的 内 容 。 
还 是 接着 这 里 来 讲 ， 我 们 想 要 求 得 
y=wxtb 


中 的 w 和 b， 我 们 有 众多 的 x 和 y， 比 如 融 是 刚才 说 的 10 个 。 刚 刚 我 们 襄 的 速度 v 和 时 间 t 的 天 系 ， 在 这 里 写作 y 和 x 的 关系。 假 
设 在 拟 合 的 过 程 中 有 这 样 一 个 参数 e 代 表 error， 表 示 误 差 的 合 义 。 


y—=wxtbte 


当 我 取 定 任何 一 个 w 和 b 的 时 候 ， 只 要 代入 一 个 x 和 对 应 的 y 残 一 定 会 产生 一 个 e 来 表示 这 个 误差 ， 有 10 个 x 和 y 那 么 残 有 10 个 
e。 我 们 试 着 把 这 10 个 e 的 大 小 做 一 下 加 和 来 表示 一 个 全 局 的 误差 尽量 ， 看 看 表达 式 是 什么 样子 。 


=y,- (wx; b) 


这 里 的 下 标 i 表示 第 i 个 样本 ， 每 一 个 的 表达 式 都 应 该 是 这 样 。 加 和 则 变 成 了 : 


也 惑 是 表示 是 这 10 个 e 相 加 的 和 。 这 里 请 注意 ，e 表 示 的 是 误差 ， 也 残 是 说 e 是 正 数 是 误差 ，e 是 负数 也 是 误 兰 ， 这 种 误差 我 
们 称 为 残 差 一 一 就 理解 为 我 们 建 模 之 后 进行 拟 合 然 后 残留 的 差距 就 可 以 了 。 既 然 e 本 身 是 正 是 负 都 应 该 算 作 残 差 ， 那 么 让 其 内 部 
正 负 抵消 显然 不 合适 ， 这 种 情况 下 应 该 把 每 个 e 都 做 一 个 非 负 的 处 理 ， 或 者 取 绝 对 信 或 者 取 平 方 ， 都 能 达到 类 似 的 效果 。 我 们 在 
这 里 丈 取 平方 看 看 会 有 什么 结果 。 残 磊 


H9 
; 
Loss — 2.6 
j=] 


Loss = >》 (y, — (wx, + b)y 
i=] 


天 
_ 2.2 2 uu B. 
Loss = 2,6 w +b -2xwb-2y,b-2x.y,w- y;) 
j=] 
SHAT ENRES A SSSI SENN Telit, Sw, bh, whi, wi, bili, URET Sy i—i 


别 看 它 这 里 写 着 个 y， 它 可 是 我 们 在 实验 开始 的 时 候 获得 的 样本 标签 ， 一 个 已 知 数 。 在 2 和 完全 展开 后 ，w“ 项 、b“ 项 、wb 项 、 


w 项 、b 项 和 单数 项 都 会 各 目 提 取 公 因 陈 合并 ， 变 成 这 种 形式 : 


2 ] 2 | | mi 
Loss = Aw + Bb + Cwb+Dw+tEb+EF 
其 中 的 A、B、C、D、E、F 全 部 都 是 常数 系数 。 


好 了 ， 现 在 我 们 得 到 一 个 全 局 性 的 误差 阔 数 ， 其 中 的 未 台数 是 w 和 b。 现 在 要 做 一 件 事 ， 那 融 是 找到 一 个 比较 好 的 w 和 一 个 
比较 好 的 b， 使 得 整个 Loss 尽 可 能 小 ， 越 接近 0 越 好 ， 襄 明 拟 合 的 误 笑 越 小 。 用 日 话说 也 就 是 画 一 条 线 从 众多 的 点 中 穿 过 去 ， 让 
它 尽 可 能 距离 这 些 样本 点 比较 近 ， 看 上 去 靠 谱 一 些 。 虽 然 我 们 不 知道 这 些 值 具体 是 什么 但 是 可 以 先 男 一 个 它 的 “ 近 攻 ” 


数 z=f (x, y) =x<+y<+xy+x+y+1 出 来 看 看 函数 在 三 维 空间 里 是 一 个 什么 形状 : 


Bg 


“x^2+y^2+x*ytxt+y+1” 的 图 表 


= 
国 tt 
二 | 
f 
| 
| 
| 
| 
| 
| 
4 
I 
i 
| 
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T 


w Bea: 结束 值 : 


-10.0000 10.0000 


| EN LU — ML 
gemunt y | -10.0000 | 10.0000 


-70.2631 214.796 


X 


z 


an 
( 抑 彩 所 ) 
。 看 到 这 个 图 形 我 们 顿时 心 就 放下 来 一 半 ， 这 就 和 平面 直角 坐标 系 中 
也 就 是 我 们 刚才 襄 的 


"Blk" ANAK (x, y) , 
XT Fa RULE TE JUR ZE Lossy 


整个 图 形 在 xyz 三 维 直角 坐标 系 中 看 上 去 像 一 个 “ 碗 ” 
的 抛物 线 一 样 ， 存 在 极 值 。 那 下 面 就 是 求 极 值 的 问题 了 ， 也 束 是 求解 这 个 
守 号 字母 不 同 但 是 意 X 


(w, b) 的 取 值 点 ， 这 里 的 (x，y) 就 相当 于 (w, b) , FS 
解 。 别 怕 ， 我 们 前 面 已 经 有 了 那么 多 准备 的 武器 ， 现 在 该 派 上 用 场 了 。 


7. 梯 度 下 降 法 
牛顿 法 来 解 方程 的 根 ， 这 种 方法 同样 适用 于 刚刚 的 线性 回归 的 学 习 过 程 。 虽 然 我 们 没 办 法 
待定 系数 w 和 b 的 最 佳 值 位 置 。 


BTE XI JE ESSE FIAT IA 
得 到 一 个 解析 解 来 找到 这 个 极 值 的 位 置 ， 但 通过 迭代 不 断 学 习 ， 可 以 逼近 这 个 模型 设置 中 待定 


土 
首先 我 们 初始 化 一 个 wo 和 一 个 bo， 随 便 是 什么 实数 都 可 以 ， 反 正 市 进 到 


Loss = 


y, o (wx, T b)y 


中 都 是 可 以 输出 肝 一 个 Loss0 值 的 。 这 个 时 候 的 (wo, bo, Losso) BIE "BER" CARVES, MXM 
很 可 能 离 我 们 要 找到 的 砚 帮 还 差 得 很 远 很 远 。 

我 们 的 前 人 也 都 知道 计算 机 是 个 不 靠 谱 的 玩意 儿 ， 上 自己 是 没有 任何 解 题 思路 的 ， 还 是 得 我 们 告诉 计算 机 起 么 来 找到 这 个 极 值 
点 的 位 置 。 这 个 方法 现在 应 用 很 普遍 ， 例 如 梯度 下 降 法 (gradient descent) 就 是 其 中 一 种 ， 这 也 是 用 来 解决 凸 优化 问题 的 通用 
方法 。 例 如 y=x“<+2 这 种 函数 就 是 典型 的 一 元 凸 函数 ， 刚 才 说 的 这 个 z=f (x, y) =x<+y2+xy+X+y+1 则 是 二 元 凸 函数 ， 三 元 及 
以 上 的 高 维 凸 函数 也 是 有 的 ， 只 是 没 办 法 画 出 图 像 而 已 。 


x y: 
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图 1-1 f(x) =x?+2 


这 种 阔 数 要 求 其 极 小 全 那 是 有 固定 套路 的 ， 我 们 可 以 用 一 种 “ 挪 挪 看 ”的 方法 来 找 。 我 们 移 来 看 看 这 种 一 元 二 次 函数 的 极 值 


就 以 f(x) =x<+2 为 例 吧 ， 比 如 我 们 确实 不 知道 f (x) =x<+2 的 极 值 在 什么 位 置 ， 也 不 想 用 解析 解 来 表达 ， 那 么 就 先 在 函数 
曲线 上 随便 取 一 个 点 (x0，x<0+2) ， 因 为 是 随意 取 的 点 所 以 十 有 八 九 是 不 会 恰好 在 极 值 点 上 的 。 假 如 我 们 开始 取 的 是 
(3, 11) 这 个 操 ， 这 个 后 显然 不 是 我 们 要 求 的 极 值 点 。 不 过 没关系， 在 取 了 这 个 点 之 后 ， 我 让 计算 机 往 它 的 两 边 “ 看 ”， 看 看 


哪 边 更 低 一 些 ， 比 如 x=2.8 和 Xx=3.2 这 两 个 点 。 这 两 个 值 分 别 对 应 的 点 融 是 


(2.8, 9.84) 和 (3.2, 12.24) 


这 两 个 点 相 比 很 容易 束 比 出 来 ，x=2.8 这 边 这 个 方向 要 更 低 一 些 ， 太 好 了 ， 往 这 边 挪 。 
下 次 束 是 比较 x=2.6 和 Xx=3.0 这 两 个 感 了 ， 一 看 x=2.6 这 个 点 的 尔 数 值 更 低 ， 那 就 接着 挪 。 按 照 这 种 方式 丈 可 以 在 十 几 次 以 后 
挪 到 极 值 点 x=0 的 位 置 了 。 你 看 看 ， 我 们 不 用 传统 手动 解 万 程 的 万 式 ， 还 是 有 办 法 用 循环 加 减 乘除 这 么 Low 的 办 法 解 极 值 问题 的 


是 不 是 ; 
大 家 做 个 示例 ， 真 实 的 情况 下 其 实 通 单 是 不 确定 挪 多 少 合适 的 。 一 般 来 况 ， 我 们 是 特别 希望 这 


该 多 挪 的 时 候 多 挪 ， 该 少 挪 的 时 候 少 挪 ， 挪 到 位 了 就 别 挪 了 一 一 这 多 理想 。 


月 J 


不 过 在 这 里 我 每 次 挪 0.2 是 给 
种 情况 下 这 种 挪动 能 够 来 个 “ 目 适 应 ”， 

梯度 下 降 法 就 是 为 了 解决 这 种 问题 的 。 还 用 刚才 这 个 例子 来 说 ， 能 不 能 让 我 们 每 次 更 新 不 要 都 是 0.2， 离 极 值 点 远 的 地 方 我 
近 的 时 候 挪 得 慢 一 些 ， 挪 到 位 就 不 动 了 。 这 个 方法 写 出 来 是 这 人 么 个 形式 : 


df (x 
dx 


过 微 积 分 的 读者 朋友 相信 对 这 样 的 公 陈 会 感 交 很 杀 切 ， 没 学 过 的 朋友 也 别 着 急 ， 我 用 日 话 解释 一 下 它 的 合 义 是 什么 。 


让 它 挪 得 快 一 些 ， 
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时 候 ” ” 的 值 赋 给 xn+1。 其 中 希腊 字母 n 读 作 “ 伊 塔 ”， 称 为 “学 习 率 " ， 也 就 是 一 个 挪动 步 长 的 基数 ， 所 以 也 可 以 叫 "2b 
df (x) 
在 学 习 伊始 由 编程 序 的 人 给 赋值 进去 就 OK 了 。 ds Ef (x) 的 导 函 数 或 称 导 


Va 


K”, REAREA, 11S) BAIS , 
数 ， 也 可 以 记 作 f”(x) , KP SNR Sate ER EAE ES. PIRES, MARTE. 


文 就 像 梯子 ， 可 能 会 有 一 个 方向 更 陡 一 些 


以 函数 f(x) =x<+2 为 例 ，x=3 这 一 点 的 导数 大 小 就 是 (3，11) 这 一 点 的 斜率 ， 在 函数 这 一 点 做 切线 求 斜率 是 可 以 的 。 那 


就 是 直接 把 f (x) 的 表达 式 求 出 来 ，f'(x) =2x 中 ， 然 后 把 x=3 代 入 到 f (x) 中 去 ， 可 以 得 到 一 样 的 结 f (x) =x<+2 中 
(3, 11) 这 一 点 的 斜率 大 小 。 


|. d/(x) 
这 一 点 的 导数 看 上 去 还 是 变 大 的 ， 我 蔡 大 家 直接 求解 了 f (3) =6， 假 如 n 我 们 给 0.1 的 话 ， 这 时 “ ox 就 应 该 等 于 -0.6 了 ， 


由 于 xn=3， 所 以 更 新 后 xn+1=2.4。 


d - 04 
而 在 进行 下 一 次 迭代 的 时 候 ， 即 x"=2.4 的 时 候 ， f (2.4) 24.8, BBA” ax 更 新 后 xn+1= 1.92, 
„S 
大 家 都 能 看 出 来 ， 这 每 一 次 移动 的 步 长 是 在 逐步 减 小 ， 原 因 就 是 临近 整个 函数 圆 平 平 的 底部 的 时 候 和 斜率 降低 ， 导 致 ” ax 
df (x) 


的 绝对 值 减 小 ， 更 新 的 时 候 改 变 的 量 也 就 相应 减 小 。 这 个 更 新 原则 xn+1=xn ”d 还 有 一 个 优势 不 知道 细心 的 读者 发 现 没有 ， 在 


这 里 面 没有 往 两 边 试 的 这 个 过 程 ， 直 接 做 更 新 了 。 这 是 为 什么 呢 ? 就 用 刚刚 的 这 个 函数 f (x) =x<+2 来 说 吧 ， 当 xn=3 的 时 候 ， 


yo 
这 一 点 的 切线 的 斜率 是 个 正 数 ， ”dx 这 一 项 一 定 是 一 个 负数 ， 更 新 后 xn+1 会 变 小 ， 朝 着 底部 的 方向 前 进 ; 如 果 xn=-3 的 时 候 ， 
df (x) 


这 一 点 的 斜率 是 一 个 负数 ,而 ”dx 这 一 项 一 定 是 一 个 正 数 ， 更 新 后 xn+1 会 变 大 ， 也 朝 着 底部 的 方向 前 进 。 这 两 点 都 是 保证 这 
种 算法 收 合 的 基本 因素 ， 而 这 种 底部 国平 乎 的 销 数 其 实 丈 是 凸 销 数 。 


从 教科 书 上 的 定义 来 看 ， 凸 遂 数 有 着 复杂 和 严格 的 定义 ， 不 过 我 们 可 以 记 住 它 最 简单 最 基础 的 性 质 一 一 也 是 一 个 必要 条 
件 ， 如 下 : 


xx o f) fay) 
米 = E s^ Lee J < o 
ERAF (x) 上 有 任意 两 个 变量 x1 和 x2， 逆 数 满 足 | 2 | : 


我 们 感 党 一 下 ， 这 种 消 数 比 f(x) -wx-bBBRRELJZJRSESZX, Eit SARE, BERAE REHAR, tela 
A i - fo) Sf) 


— ; ”“， 而 且 还 是 向 “下 方 ”发 生 了 弯曲 。 我 们 说 它 


i nne; AURIS ETUR 3 
叫 “ 凸 ”函数 ， 其 实 就 相当 于 我 们 在 函数 图 像 的 下 方 看 它 ， 函 数 向 我 们 观察 者 所 在 的 方向 凸 出 来 了 ， 所 以 由 此 得 名 。 是 不 是 很 形 
象 呢 。 


OF) OF £2 OFEH 


yz 


不 过 有 很 多 读者 朋友 可 能 会 周 得 这 种 说法 太 奇 怪 了 ， 和 上 自己 的 认 知 恰恰 相反 ， 因 为 从 我 们 “平视 ”的 角度 去 看 ， 怎 么 看 怎么 
像 个 凹 进去 的 砚 或 者 金 的 感 完 ， 可 是 人 家 就 不 叫 凹 函数 ， 非 得 反 着 来 不 可 。 你 看 ， 这 俩 高 智商 的 学 生 也 是 会 党 得 叫 法 有 争议 ， 没 
AUR, Saw T. 
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下 降 法 来 求 极 值 ， 而 这 种 方法 刚刚 我 们 已 经 找到 办 法 了 。 核 心思 路 束 是 在 函数 的 曲线 (曲面 ) 上 初始 化 一 个 点 ， 然 后 让 他 沿 着 樟 
度 下 降 的 方 同 移动 ， 和 直到 移动 到 消 数 值 极 值 的 位 置 ， 这 个 位 置 视 具体 的 问题 而 定 ， 可 能 是 极 小 值 也 可 能 是 极 大 值 一 一 因为 如 果 
是 止 函 数 那 就 是 梯度 上 升 的 方向 了 。 是 不 是 ? 


9. 二 元 (多 元 ) DRAŽI 


别 着 急 ， 我 们 快 摸 着 门 了 ， 现 在 一 维 凸 辫 数 的 极 值 我 们 可 以 用 编程 序 的 方法 解决 了 。 那 么 我 们 看 二 维 凸 溺 数 怎么 办 ， 有 招 儿 
没有 。 我 们 来 看 这 样 一 个 阔 数 : 


这 个 函数 图 像 如 下 : 
“x^2+8*y^2” 的 图 表 
c) 


ripe 
T 
/ 
/ 


w | 起 始 值 : Bee: 
mod x -10.0000 | 10.0000 
y | -10.0000 | 10.0000 


z -343.217 1029.72 


在 这 个 函数 上 我 们 要 想 从 开始 给 的 一 个 (Xo, Yo) 的 点 通过 一 次 一 次 迭代 挪 到 极 值 点 上 去 恐怕 跟 原 来 思路 会 不 大 一 样 ， 和 一 


df (x) 
dx 


一 元 凸 函数 只 有 2 个 方向 ， 这 一 点 刚才 我 们 说 过 了 。 不 过 在 更 新 方程 ” “” 


上 号 冰 数 不 同 ， 最 起 码 我 们 有 4 个 方向 可 以 试 ， 
这 个 方向 ， 这 个 刚刚 我 


里 ， 我 们 可 是 发 现 一 个 窍门 ， 那 就 是 不 用 真 的 去 两 边 都 试 ， 这 个 更 新 方程 本 身 就 能 在 一 个 维度 上 “识别 ” 
们 也 说 过 了 。 那 么 在 两 个 维度 上 简化 后 应 该 有 这 样 两 个 方程 : 


Vau — ^ poe» y) Ia = Y, ns 


n+l n 
OX 
注意 这 里 有 — "Q' , IX MARS “6" RNS EAS EF SAS. LABES 


of (x,y) 
函数 z=f (x, y) =x<+8y“ 为 例 ， A UR Wet “ 偏 f 偏 x ， 它 表示 的 合 义 是 z=f (x, y) 这 个 曲面 上 的 点 上 在 沿 着 平行 于 x 轴 的 方 
of (x, y) 


同 做 切线 ， & RIANA (x, y) 处 的 沿 着 平行 于 x 轴 方向 的 切线 斜率 。 


“x^2+8*y^2” 的 图 表 


TIT A | 3 


` | 起 始 值 : | 结束 值 : 
x | -10.0000 10.0000 
y | -10.0000 | 10.0000 
z -343.217 1029.72 


of Qc. y) Qf Gy) 
同 理 > PAM ez=f (x, y) 这 个 曲面 上 的 点 上 在 沿 着 平行 于 y 轴 的 方向 做 切线 ， ie 就 表示 点 (x, y) 上 的 沿 


着 平行 于 y 轴 方向 的 切线 斜率 。 
2488/9" 的 图 表 
2 


a. 
P 


| 


| 


| 
i 
| 
| 


x | -10.0000 10.0000 
y |- 10.0000 | 10.0000 
z -343.217 1029.72 


f(xy) F(x,y) df (x,y) df(x,y) df (x,y) 
从 数学 角度 来 说 ， & 和 % 的 求法 与 a 和 由 的 求法 一 样 。 以 v 为 例 束 是 在 这 个 表达 式 z=f (x, y) P, By 
df (x,y) df(x,y)  df(x,y) 
dv 也 是 同 理 。 这 里 用 d 和 v 这 种 写法 在 数学 层面 上 显得 太 不 专 


直接 当成 一 个 已 知 数 或 者 说 系数 来 看 待 ， 对 x 求 导数 ， 
WT, 只 是 为 了 表达 这 个 过 程 与 一 元 六 JNK SALAS. 通过 求 导 可 以 分 分 另 别 | 得 至 llz-f (X, y) =X + 8y2iXT— KE 


POY) 4, Sy) 
Ox | ø 


Of (x,y) F(x,y) Of (x,y) Of (x,y) 
那么 给 我 任何 一 个 点 (x, y) ， 我 都 知道 这 一 点 上 的 & 和 % 分 别 是 多 少 了 ， 例 如 (3, 4) XS, ^ 和 2 分 


BIA (6, 64) 。 这 时 候 ， 这 个 更 新 万 程 其 实 束 可 以 开始 工作 了 : 


n^ X. Of (x, 
n+l 一 x, IY) 22 和 ‘2 o A 7] /( ») 
OX Oy 


不 过 对 于 计算 机 有 限 的 运算 能 力 来 说 计算 资源 永远 是 不 足 的 ， 在 实际 的 深度 学 习 网 络 中 ， 极 可 能 几 干 万 甚至 有 上 亿 个 维度 、 

几 十 亿 个 维度 需要 更 新 ， 所 以 从 效率 层面 来 考虑 也 是 希望 这 种 更 新 能 够 产生 最 遍 效 的 收敛 效果 。 所 谓 “ 收 敛 ” 残 是 通过 多 次 迭代 

逐步 通 近 想 要 求 的 值 这 个 过 程 ， 那 显然 在 准确 度 相 当 的 情况 下 收敛 快 的 方法 会 更 受 欢 迎 一 些 。 对 于 梯度 下 降 法 中 有 这 么 多 维度 的 
选择 ， 例 如 z=f (x, y) 融 有 两 个 维度 ， 什 么 更 新 原则 收敛 速度 会 最 快 虽 ， 有 方法 可 循 吗 ? 


=l6y 


X 


你 看 ， 人 小山 他 二 四 个 
Fy e Upj FS EA EE 
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MEN 
(ULJA ) 
有 的 ， 在 一 个 三 维 空间 中 ， 在 山 项 上 往 山 脚下 前 进 ， 如 果 想 要 最 快 的 话 ， 那 就 是 沿 着 最 陡峭 的 方向 去 走 了 。 这 里 有 一 个 名 词 
叫做 梯度 ， 记 做 : 
Of (x, y) Of (x, y) 
Q Qy 


形式 上 是 两 个 万 向 上 的 偏 导 数 ， 每 次 如 果 进 行 更 新 的 时 候 束 用 n 去 乘 两 个 万 向 上 的 偏 导 数 各 目 完 成 目 己 的 更 新 量 : 


Of (X, V 

X a] — X, Q4 ER 

Of (x, y) 
Oy 


如 果 变 量 很 多 ， 比 如 不 是 只 有 x 和 ly， 而 是 有 1000 个 变量 ， 例 如 1000 个 Ww 起 么 办 ? 也 是 一 样 的 ， 把 它们 表示 成 为 


g [900 Fo) Fw) 
Ow, | OW, _ OW, 000 


再 去 各 自 乘 以 Nn 就 可 以 了 ， 得 到 |: 


Le = Ya 


a 


I 


a’ | 
W, 41 —W n | 


Of (w) 
Ow’ 


w 的 上 标 i 霄 示 第 几 个 w，w 的 下 标 n 和 n+ (aaa AE, FEMI Bete RIAU 1000 7 w 3 SI TAS C 


到 这 里 我 们 就 基本 已 经 理解 了 梯度 下 降 法 (最速 梯度 下 降 法 ) 在 多 元 凸 销 数 上 更 新 所 经 历 的 步骤 和 原理 。 那 么 如 何 解 决 训练 
问题 呢 ? 我 想 你 已 经 心里 明白 了 八 九 分 了 ， 只 要 能 够 把 残 差 Loss 函 数 描述 成 待定 的 若干 个 w 所 描述 的 凸 函 数 一 盖 Loss (w) , 8B 
么 残 可 以 用 梯度 下 降 法 ， 用 最 快 的 方法 更 新 w 的 各 个 维度 ， 最 后 满足 Loss (w) 找到 极 值 点 的 位 置 融 算 是 大 功 告 成 了 。 


10. 损 失 函 数 


我 们 管 这 种 消 数 叫 Cost 或 者 Loss 都 可 以 ， 还 是 外 国人 起 名 字 比 较 讲究 ， 不 官 是 Cost 还 是 Loss， 你 听 着 束 那 么 让 人 心疼 ， 这 
是 要 么 费 钱 要 么 有 损失 的 感 完 。 没 错 ， 这 东西 就 叫 损失 消 数 。 


$&€rti6:80. HRES 
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损失 函数 这 个 叫 法 确实 非 单 形 象 ， 你 想 啊 ， 你 费 了 半天 劲 儿 做 了 个 拟 合 ， 本 身 是 为 了 让 它 和 你 想 要 得 到 的 那个 真实 结果 一 
致 ， 结 果 中 间 有 差距 了 ， 那 还 不 是 损失 啊 ? 问题 是 怎么 让 损失 变 小 ， 最 好 是 没有 损失 ， 只 要 损失 能 消 淡 了 那 束 算是 圆满 了 。 


在 深度 学 习 中 的 损失 函数 其 实 是 不 一 而 足 的， 每 种 损失 阔 数 在 当 急 诞生 的 时 候 都 是 有 一 些 客 观 环 境 和 理由 的 。 但 不 管 是 哪 种 
TRAE, BAX VT ER. 


特 操 一 : 恒 非 负 。 


都 说 是 损失 了 ， 最 圆满 的 情况 就是 没 损失 ， 或 者 说 损失 为 0， 但 几 有 一 点 拟 合 的 偏差 那 束 会 让 损失 增加 。 所 以 损失 遂 数 都 是 
恒 非 负 的 ， 否 则 也 无 法 出 现 合理 的 解释 了 。 


特点 二 : 误 磊 越 小 函数 值 越 小 。 


这 个 性 质 也 是 非常 重要 的 ， 如 果 消 数 定义 的 不 好 ， 优 化 起 来 没有 方向 或 者 逻辑 过 于 复杂 ， 那 对 于 问题 处 理 显然 是 不 利 的。 谁 


RU S20 BOK Me SSR ESET ARREARS) a, EAR? 
特点 三 : WS, 


这 个 性 质 没有 那么 天 键 。 收 敛 快 的 意思 融 是 指 在 我 们 优化 这 个 损失 函数 Loss 的 和 迭代 过 程 中 需要 让 它 比 较 快 地 台 近 极 小 值 ， 通 


近 函 数值 的 低 点 。 同 等 情况 下 一 个 钟头 能 得 到 解 那 绝 对 没 必要 伦 三 个 钟头 ， 好 的 损失 函数 的 定义 会 让 这 个 训练 时 间 在 一 定 程度 上 
缩短 的 。 不 过 这 个 条 件 不 能 算是 必要 条 件 ， 因 为 它 只 要 不 影响 正确 性 ， 慢 一 点 其 实 也 不 能 算 作 “错误 ”。 这 是 个 锦上添花 的 属 


性 ， 大 家 心里 有 个 数 束 行 了 。 
11. 导 数 起 么 求 
最 后 一 个 问题 ， 导 数 息 么 求 。 这 一 小 节 很 关键 哦 ， 我 们 来 看 实现 用 梯度 下 降 法 更 新 Loss (w) 的 一 段 程序 。 


注意 一 个 问题 ， 让 不 靠 谱 的 计算 机 用 加 减 乘除 来 做 更 新 的 过 程 中 ， 还 有 一 个 问题 我 们 在 前 面 没 有 提 人 到 ， 那 束 是 怎么 求 导数 的 
问题 。 学 过 高 等 数学 或 数学 分 析 的 读者 朋友 也 别 高 兴 得 太 早 ,损失 立 数 Loss (w) 一 般 情 况 下 都 呈现 出 一 种 看 上 去 非常 “不 规 
则 ”的 样子 ， 没 办 法 通过 查 表 得 到 导数 的 表达 式 (也 残 是 我 们 识 的 解析 解 ) 。 那 也 束 更 不 可 能 通过 代入 当时 这 一 点 的 x 向 量 (n 
个 维度 ) 值 来 求 得 名 个 方向 上 的 偏 导数 的 数值 了 。 


不 过 我 们 还 是 有 办 法 来 求 一 个 偏 导 数 在 某 一 个 点 的 大 概 值 的 。 首 先 我 们 先 想 想 看 偏 导 数 的 几何 定义 ， 束 是 切线 和 斜率。 那 我 们 
能 不 能 用 别 的 方法 求 出 切线 斜率 呢 ? 
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我 们 还 是 以 一 个 一 元 二 次 曲线 为 例 ， 还 是 f (x) =x<+2 吧 。 还 是 给 一 个 初始 化 的 点 ,给 (4, 18) 好 了 。 在 这 里 使 用 


df ， FO) 
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既然 是 求 切 线 ， 切 线 的 定义 是 


lin LO T ~ T(x) 


GO) 
其 实 这 也 是 x 的 定义 ， 分 子 上 是 一 个 f (x+A) -f 00 ， 从 含义 上 来 看 ， 融 是 在 任何 一 个 x 的 取 值 上 再 同 其 旁边 挪 一 个 A 大 


小 ， 在 数学 和 物理 上 专门 用 来 表示 一 个 很 小 的 差 值 ， 注 意 这 个 A 可 是 没有 说 正 负 值 。 所 以 分 子 上 f (x+A) -f (x) BENTES 
边 挪 一 个 A 后 再 看 这 个 f (x+A) 与 当前 f (x) HÆS. W, RINCE, BRENG. 


分 母 上 直接 束 是 一 个 A， 这 个 A 是 一 个 很 小 的 差 值 ， 没 啥 大 多 好 襄 的 。 再 来 看 整个 表达 陈 。 
ju 65559 00) u 
A 整体 的 含义 就 是 让 这 个 比值 中 的 A 无 限 接近 于 0， 但 不 能 等 于 0 一 一 0 作 除 数 对 于 目前 的 高 等 数学 中 还 没有 解释 


我 们 看 图 上 ， 这 个 人 A 在 无 限 趋 近 于 0 的 情况 下 你 会 友 现 ， 不 论 它 是 一 个 正 数 还 是 一 个 负数 ， 最 后 都 趋 于 一 个 值 ， 束 是 这 个 点 
的 斜率 值 。f (x+A) -f (x) 是 这 个 三 角形 的 直 边 高 ， 人 A 是 三 角形 的 底 边 长 。 


f(x) 


f(x A) — f(x) 
A 


如 果 是 这 样 ， 我 们 就 可 以 用 这 样 的 表达 式 来 近似 代 蔡 导 消 数 的 冬 率 值 了 。 还 是 以 (4，18) 为 例 ， 这 一 后 的 科 率 值 我 们 用 
f (x--0.001) — f(x) 


000 RRE. 


x+0.00D— F(x)  18.008001—18 
0.001 0.001 


= 8.001 ~ 8 


_ df (x) 
得 到 的 这 个 值 还 是 相对 比较 精确 的 ， 既 然 有 了 这 种 方法 ， 那 么 在 任何 一 个 维度 上 ， 只 要 它 可 导 只 我 们 都 能 求 出 “ dx 的 近 
df (x) 


似 值 ， 并 更 新 “ ””d 。 不 用 担心 8.001#8 的 误差 会 产生 晋 加 效果 ， 从 而 让 求解 出 问题 ， 因 为 它 最 后 在 应 用 的 过 程 中 仅仅 是 


用 来 确定 一 个 更 新 的 量 。 更 新 的 时 候 还 是 用 精确 的 方式 更 新 了 n 维 度 向 量 x 的 某 个 维度 的 值 而 已 ， 在 刚刚 这 个 示例 中 最 多 就 是 步 
长 上 和 理想 ”的 可 能 差 了 0.001n 而 已 影响 非常 有 限 ， 完 全 不 必 太 纠结 
12. 训 练 过 程 


回 过 头 来 再 看 我 们 初始 化 (wo, bo, Losso) 后 下 一 步 怎 么 做 ， 一切 都 水 到 党 


z | OLOSS , OLoss 
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再 次 强调 一 下 ， 不 求 梯度 (Sek) 的 情况 下 ， 通 过 改变 w 或 b 的 值 是 一 定 能 够 比较 出 来 移动 的 方向 的 ， 但 是 问题 是 不 知道 
移动 多 少 比 较 适 宜 。 而 有 了 偏 导 数 与 学 习 率 n 的 乘积 后 ， 当 这 个 点 逐 步 接 过“ 砚 底 ” 的 时 候 ， 偏 导数 也 随 之 降低 ， 移 动 的 步伐 也 
会 慢 慢 减 小 ， 收 敛 更 为 平缓 ， 不 会 轻易 出 现 “ 步 子 太 大 ”而 越过 最 低 点 的 情况 。 


一 轮 一 轮 进行 迭代 ， 和 直到 每 次 更 新 的 值 非常 小 ， 损 失 值 不 再 明显 减少 就 可 以 判断 为 训练 结束 。 此 时 得 到 的 (w，b) 值 束 是 
我 们 要 求 的 模型 


y=wxtb 

中 最 为 合适 的 w 和 b 一 一 也 就 是 这 次 机 器 学 习 所 学 到 的 具体 内 容 。 

13. 模 型 工作 

当 训 练 结束 后 ， 模 型 就 可 以 开始 工作 了 。 

这 个 工作 的 过 程 是 非常 简单 的 ， 那 就 是 把 一 个 输入 的 x 代 入 到 训练 好 的 y=wx+b 中 去 ， 使 它 输出 一 个 y。 


这 个 过 程 比 起 刚刚 的 训练 过 程 时 间 要 短 得 多 ， 毕 竞 训练 过 程 需要 迭代 法 去 一 次 一 次 计算 通 近 要 求 的 解 ， 而 这 个 工作 过 程 完 
是 一 轮 普 通 的 加 减 乘除 运算 。 


可 以 说 ， 几 乎 所 有 的 机 器 学 习 算 法 模型 都 会 体现 出 这 样 一 个 特点 ， 那 束 是 “训练 的 时 间 很 长 ， 而 一 次 工作 的 时 间 很 短 ”。 


[1] 直接 通过 移 项 、 配 方 等 方法 解 方 程 得 到 解析 解 的 方式 与 思路 ， 直 接 会 得 出 方程 的 解析 解 。 
[2] 即 1000fps 的 高 速 摄像 机 。 


X o^ 


3] 在 高 等 数学 基础 中 有 一 些 常 用 函数 的 导 函 数 ， 可 以 直接 查 表 得 到 ， 不 用 严格 按照 定义 去 重新 求 。 
[4] 不 是 所 有 的 函数 都 有 导数 ， 也 不 是 所 有 的 函数 在 每 个 点 上 都 有 导数 的 定义 ， 在 这 里 不 做 过 多 的 讨论 了 


4.3 ”神经 网 络 的 训 尼 


在 看 去 了 一 个 线性 回归 的 训练 过 程 后 ， 我 们 回头 看 看 刚刚 那个 被 搁置 一 旁 很 久 的 两 层 网 络 。 


AJE 


l 


这 个 网 络 用 遂 数 表达 式 去 写 的 话 会 是 这 样 的 : 


+b EL 
w,x+b,, y, = 
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看 到 这 样 的 情形 ， 我 们 应 该 不 会 感到 紧张 了 ， 刚 才 的 线性 回归 已 经 被 我 们 彻底 征服 了 。 那 么 即便 没有 人 告诉 我 们 ， 我 们 也 会 
知道 接 下 来 瓯 是 一 套 俗 不 可 耐 的 “ 急 始 化 之 后 挪 啊 挪 ”的 过 程 一 一 把 整个 网 络 里 上 折 有 的 待定 系数 wh、bh、Wwo、boc 都 急 始 化 一 个 
值 ， 然 后 照 猫 画 虎 地 按照 刚才 的 套路 ， 定 义 一 个 摘 述 误差 的 损失 函数 ， 然 后 将 wh、bh、wo、bo 逐 步 变化 ， 直 到 损失 阔 数 减 小 到 


足够 小 束 OK 了 。 好 ， 我 们 先 按照 这 个 套路 走 一 塌 看 看 。 


zn 


1. 准 备 样本 


在 一 个 复杂 的 网 络 中 ， 我 们 准备 一 定数 量 的 用 来 训练 的 x 向 量 ， 可 以 是 文本 ， 可 以 是 图 片 ， 可 以 是 音频 ， 甚 至 可 以 是 音 视 频 
结合 的 更 为 复杂 的 训练 样本 ， 当 然 只 要 是 输入 到 网 络 中 作为 训练 样本 的 一 定 是 向 量化 的 。 在 这 个 信 蛙 的 网 络 里 为 了 看 得 清晰 一 些 
还 是 举 普 通 的 数字 为 例 。 


VT T 


这 里 我 们 造 10 个 x 值 1 到 10，10 个 y 值 0.1 到 1.0。 看 上 去 非常 像 一 个 线性 回归 的 关系 ， 对 不 对 ? REWER ERT AUER 
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作 不 知道 这 件 事 ， 让 计算 机 通过 网 络 自己 去 学 习 ， 学 出 wh、bh、wo、bo 这 四 个 待定 参数 ， 学 出 来 什么 关系 就 是 什么 关系 。 


文 些 别 看 不 一 样 ， 
但 都 是 美女 ， 记 住 了 到 9 Wi ES 
N | 


rd 


CLA TE) 
如 果 你 是 做 图 片 分 类 的 话 ， 那 你 还 要 给 每 个 样本 打上 标签， 
X17y1. 
X277 y2. 
一 直 往 下 标 ， 直 到 我 们 准备 的 最 后 一 个 样本 : 
Xn “yn。 


比如 ， 给 我 一 张 照 请 x1， 我 标记 一 个 y1 一 一 猩 ， 给 我 一 张 照 请 xz2， 我 标记 一 个 yz2， 一 直 这 样 下 去 ， 直 到 标记 完毕 所 有 的 照 


片 样本 。 


2. 清 洗 处 理 


其 实 清洗 处 理 这 个 过 程 是 比较 复杂 的 ， 也 是 整个 神经 网 络 和 深度 学 习 中 比较 难 的 地 万 ， 我 们 后 面 会 具体 针对 场景 进行 讨论 
现在 我 们 只 要 了 解 到 在 放 入 网 络 进 行 训练 之 前 ， 需 要 进行 一 定 处 理 ， 处 理 的 目的 是 为 了 帮助 网 络 更 高 效 、 更 准确 地 做 好 分 类 ， 这 
样 束 可 以 了 。 


3. 正 式 训 | 练 


在 前 面 的 工作 基本 做 好 的 情况 下 ， 我 们 束 可 以 开始 训练 模型 了 
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根据 网 络 中 两 个 神经 元 的 表达 式 摘 还 


Z, =w,xXt+b,, y, =———. 
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X1 一 旦 代入 之 后 ， 融 会 是 这 样 一 个 映射 天 系 了 : 


Zp] — W, X, tb,, Yn = , 
l+e ” 
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Za =W, Yn + b,, Ya = 一 一 一 
I+e ” 


那么 由 x1 和 y1 市 来 的 误差 值 也 可 以 定义 了 ， 也 残 是 : 


Loss, = 


由 10 个 训练 数据 共同 市 来 的 误差 值 融 变 成 了 : 


10 
Loss = 2. Voi — Vj 
jl 


AES wn. bh. wo. bozTFATB, AKARKI Loss EE AFARA, ME GEM) ^ Wh. bm. Wo. bgxpu 
待定 系数 来 逐步 减 小 Loss 的 过 程 了 。 这 个 似曾相识 的 过 程 又 出 现 了 ， 也 融 是 需要 有 这 样 四 个 表达 式 来 做 更 新 : 
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(b) =(b,) -n 
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其 他 都 好 理解 ， 无 非 是 一 个 “5 维 空间 里 的 碗 ” 找 碗 底 的 过 程 。 问 题 是 *”， 05 — Os 0^ 这 4 个 值 怎么 求 。 别 的 倒 不 怕 ， 求 
不 出 来 那 束 要 面临 凹 优 化 梯度 下 降 过 程 中 挪 得 过 大 越过 砚 底 的 问题 。 


办 法 还 是 有 的 ， 前 面 企 求 导 数 的 补充 内 容 中 我 们 学 了 两 种 特殊 的 导 冰 数 求解 方法 ， 一 种 是 “ 连 程 型 ”， 一 种 是 “ 钨 套 型 ”， 
现在 算是 派 上 用 场 了 。 和 首先 用 个 技巧 把 整个 阔 数 做 个 变形 : 


10 1 2 
Loss = 2,05 - y.) => Loss 752,05 —y,)° 
i=] 


i=] 


1 
给 函数 前 面 配 出 一 个 ?2 来， 主要 是 为 了 一 会 儿 前 起 来 方便 。 然 后 再 用 “ 钨 套 型 ” 冰 数 的 求 导 特 氮 来 求 导 -这 个 “ 埠 套 
型 ”的 学 名 叫 链 式 法 则 (chain rule) 。 先 求 离 输 出 端 最 近 的 Loss 对 wo、bBo 的 偏 导 数 。 
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好 了 ， 到 此 为 止 我 们 已 经 把 每 次 更 新 的 这 4 个 表达 陈 的 具体 值 都 可 以 求 出 来 了 
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(by =(b ) OLoss 
^0» Q^ r 8 h 

0 
接 下 来 只 要 按照 表达 式 去 更 新 忒 OK 了 。 其 他 结构 的 网 络 中 ， 可 能 会 有 这 样 一 些小 的 区 别 。 


区 别 1: 在 训练 样本 很 多 的 情况 下 > 加 和 的 次 数 会 更 多 一 些 ， 有 1000 个 样本 就 是 1000 次 ， 有 10000 个 样本 束 是 10000 次 。 


区 别 2: 如 果 网 络 层 数 更 深 ， 则 会 面 偏 导 数 连 乘 的 项 束 很 长 ， 在 这 里 我 们 看 到 2 层 丈 出 现 4 个 ， 而 如 果 有 10 层 ， 那 束 是 20 个 连 


3k. 


输入 层 AUE 给 出 层 


区 别 3: 如 果 网 络 更 为 复杂 ， 比 如 一 层 网 络 不 止 一 个 节操 ， 那 么 其 中 一 个 节点 上 系数 的 偏 导 数 则 会 从 多 个 路 径 传 播 过 去 ， 
为 在 这 个 节点 的 后 面 会 有 不 止 一 个 节点 把 它 的 输出 当成 目 己 的 输入 ， 从 而 形成 多 个 “ 岂 套 型 关系 ”。 


44 人 小结 


到 此 为 止 我 们 已 经 了 解 到 了 最 简单 的 神经 网 络 的 训练 过 程 和 原理 了 。 以 后 我 们 还 会 学 到 更 为 复杂 的 神经 网 络 构建 方式 ， 但 是 
从 本 质 来 讲 都 跟 我 们 这 一 章 所 学 习 的 内 容 一 样 ， 是 通过 不 断 调整 各 个 神经 元 中 的 待定 系数 使 得 损失 函数 向 不 断 降低 的 方向 移动 。 


这 一 章 的 内 容 其 实 并 不 难 ， 我 想 对 于 没有 学 过 局 等 数学 的 读者 朋友 来 说 这 些 符号 会 感 儿 让 人 很 头疼 。 这 些 符号 的 合 义 大 家 如 
果实 在 记 不 住 也 没 天 系 ， 只 要 记 住 原理 就 好 了 ， 束 是 在 这 么 多 神经 元 更 新 的 时 候 ， 让 它们 每 个 值 都 往 一 个 方向 变 ， 什 么 方 同 呢 ? 
束 是 刚刚 我 们 说 的 使 得 损失 消 数 向 不 断 降低 的 方 同 变 ， 降 低 模型 预测 结果 和 给 定 的 目标 值 之 间 的 奢 距 ， 这 点 记 住 了 丈 足 够 了 。 


请 注意 ， 在 这 里 必须 强调 一 个 非 单 重要 的 观点 。 刚 才 给 大 家 看 到 的 这 个 推导 过 程 是 一 个 非 单 简 化 并 且 容 易 理 解 的 推导 过 程 ， 
通过 凸 优化 的 万 式 能 够 顺利 求 出 损失 遂 数 的 极 值 。 然 而 我 们 在 真正 的 生产 环境 遇 到 的 各 种 神经 网 络 中 包 合 着 非常 多 的 线性 和 非 线 
性 分 类 器 函数 组 合 ， 这 也 束 意 味 着 ， 在 这 种 复杂 的 网 络 环 境 中 ， 损 失 消 数 极 有 可 能 ， 甚 至 可 以 说 几乎 一 定 不 是 凸 遂 数 一 一 在 这 
AARIS PREM BTA. “坑坑洼洼 ”的 不 规则 形状 ， 而 非 前 面 我 们 画 出 来 的 一 个 大 而 。 因 此 ， 在 真正 的 商用 框 


架 中 一 一 比如 本 书 所 讲 的 TensorFlow 会 用 很 多 技巧 来 寻找 在 整个 向 量 空间 中 拥有 极 小 值 点 的 参数 向 量 。 对 于 这 种 不 规则 形状 的 
非 吓 立 数 来 说， 当然 也 是 可 以 通过 遗传 算 友 、 随 机 梯度 下 降 等 多 种 方式 相 结 合 的 万 法 来 不 断 试 探 找 到 极 小 值 点 位 置 的 。 当 然 ， 这 
些 过 程 对 于 一 个 普通 的 TensorFlow 的 使 用 者 来 说 是 透明 的 ， 它 们 已 经 由 那些 数据 科学 家 们 实现 并 封 濠 在 框架 中 了 。 


朵 言 少 叙 ， 我 们 很 快 开 始 第 一 个 小 实验 ， 用 TensorFlow 小 试 牛 刀 ， 来 做 一 个 手写 识别 功能 的 实现 吧 。 


在 我 们 了 解 了 最 简单 的 BP 神 经 网 络 的 工作 原理 乙 后 ， 我 们 迎 来 了 第 一 个 小 实验 内 容 一 手写 板 功能 ， 一 个 基于 M NIST 数 气 
集 的 神经 网 络 实验 。 让 我 们 见识 一 下 杀手 搭建 的 神经 网 络 有 多 么 神奇 的 功能 吧 ，。 


5.1 MNIST 介 绍 


MNIST 一 一 这 种 罕见 的 书写 风格 已 经 告诉 我 们 这 是 一 个 缩写 名 词 ， 它 的 全 称 是 Mixed National Institute of Standards 
and Technology database。 这 是 一 个 非常 庞大 的 手写 数字 数据 库 ， 是 网 上 著名 的 公开 数据 集 之 一 。 在 网 上 有 不 少 这 种 数据 
集 ， 都 是 做 机 器 学 习 和 深度 学 习 的 研究 机 构 (大 部 分 是 一 些 大 学 或 者 政府 扶持 的 公益 项 目 ) 喜欢 拿 来 做 训练 和 测试 的 一 些 标 准 化 
项 目 了 ， 后 面 我 们 还 会 接触 到 别 的 公开 数据 集 。 


这 些 数 据 集 有 两 个 功能 。 


一 个 功能 是 提供 了 大 量 的 数据 作为 训练 集 和 验证 集 ， 为 一 些 学 习 人 员 提 供 了 丰 鳃 的 样本 信息 一 一 这 一 点 很 宝贵 ， 要 知道 在 
深度 学 习 领 域 要 想 在 一 个 万 面 有 比较 深 的 研究 成 果 ， 除 了 需要 具备 一 定 的 网 络 设计 和 调 优 能 力 以 外 ， 还 有 一 个 就 是 要 有 丰富 的 训 
练 样本 。 另 一 个 功能 就 是 可 以 形成 一 个 在 业内 相对 有 普 适 性 的 Benchmark 比 对 项 目 一 一 既然 大 家 用 的 数据 集 都 是 一 样 的 ， 那 么 
每 个 人 设计 出 来 的 网 络 束 可 以 在 这 些 数 据 集 上 不 断 互 相 比 较 ， 从 而 验证 谁 家 的 网 络 设 计 得 识别 率 更 高 。 


MNIST 的 官方 网 站 位 置 在 http://yann.lecun.com/exdb/mnist/。 昌 说 这 是 一 个 国际 性 的 大 数据 集 项 目的 官方 网 站 ， 不 过 
看 上 去 有 点 “不 友好 ” ， 有 一 种 粗糙 、 廉 价 感 。 


E MNIST handwritten digi X 


THE MNIST DATABASE 
of handwritten digits 


Yann LeCun, Courant Institute, N YU 
Corinna Cortes, Google Labs, New York 
Christopher J.C. Burges, Microsoft Research, Redmond 


The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. It 1s a subset of a larger set available 
from NIST. The digits have been size-normalized and centered in a fixed-size image. 


It 1s a good database for people who want to try learning techniques and pattern recognition methods on real-world data while spending minimal efforts on preprocessing and 
formatting. 


Four files are available on this site: 


train-images-idx3-ubyte.gz: training set images (9912422 bytes) 
train-labels-idxl-ubyte.gz: training set labels (28881 bytes) 
tlOk-images-idx3-ubyte.gz: test set images (1648877 bytes) 
tlOk-labels-idxl-ubyte.gz: test set labels (4542 bytes) 


please note that your browser may uncompress these files without telling you. If the files you downloaded have a larger size than the above, they have been uncompressed by 
your browser. Simply rename them to remove the .gz extension. Some people have asked me "my application can't open your image files". These files are not in any standard image 
format. You have to write your own (very simple) program to read them. The file format 1s described at the bottom of this page. 


The original black and white (bilevel) images from NIST were size normalized to fit in a 20x20 pixel box while preserving their aspect ratio. The resulting images contain grey levels 
as a result of the anti-aliasing technique used by the normalization algorithm. the images were centered in a 28x28 image by computing the center of mass of the pixels, and 
translating the image so as to position this point at the center of the 28x28 field. 
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了 。 我 猜想 也 许 是 这 些 大 牛 中 的 大 牛 们 用 了 多 年 Linux Shell 之 后 留 下 的 后 遗 症 吧 ..…. 如 果 读 者 朋友 你 还 没有 用 过 Linux Shell, AB 
束 从 现在 开始 去 试 试 吧 ， 因 为 我 们 所 有 的 实验 包括 未 来 工作 的 时 候 90% 以 上 都 是 要 在 Linux 的 命令 行 模式 下 工作 的 ， 那 种 方式 看 
上 去 比 这 个 效果 还 粗糙 ， 完 全 是 本 着 “说明 日 融 行 ， 多 一 个 字 滔 费 ” 的 交互 模式 来 设计 的 。 


在 这 个 网 页 的 下 半 部 分 有 一 个 历年 识别 算法 对 于 M NI3T 数 据 集 “ 刷 榜 ” 的 记录 ， 大 家 可 以 参看 一 下 。 为 了 方便 读者 朋友 阅 
读 ， 我 们 这 里 截取 了 一 部 分 。 


TEST ERROR 
CLASSIFIER PREPROCESSING Reference 
RATE (%) 


Linear Classifiers 


linear classifier (1-layer NN) LeCun et al. 1998 
linear classifier (I-layer NN) LeCun etal. 1998 
pairwise linear classifier LeCun et al. 1998 


K-Nearest Neighbors 


K-NN with non-linear deformation (IDM) shiftable edges Keysers et al. IEEE PAMI 2007 


K-NN with non-linear deformation 
shiftable edges 0.52 Keysers et al. IEEE PAMI 2007 
(P2DHMDM) 
subsampling to 
K-NN, Tangent Distance 1.1 LeCun et al. 1998 
16 x 16 pixels 
| shape context | 
K-NN, shape context matching l 0.63 Belongie et al. IEEE PAMI 2002 
feature extraction 


Boosted Stumps 


boosted trees (17 leaves) Kegl et al., ICML 2009 
stumps on Haar features Kegl et al., ICML 2009 


TEST ERROR 
CLASSIFIER PREPROCESSING Reference 
RATE (%) 


product of stumps on Haar f. Kegl et al., ICML 2009 


Non-Linear Classifiers 


40 PCA + quadratic classifier LeCun etal. 1998 
1000 RBF + linear classifier LeCun et al. 1998 


SVMs 


-— DeCoste and Scholkopf, MLJ 
Virtual SVM, deg-9 poly, 1-pixel jittered none 0.68 2000 

wee DeCoste and Scholkopf, MLJ 
Virtual SVM, deg-9 poly, 1-pixel jittered deskewing 0.68 2000 

l —— DeCoste and Scholkopf, MLJ 
Virtual SVM, deg-9 poly, 2-pixel jittered deskewing 0.56 2002 


Neural Nets 


3-layer NN, 5004300 HU, softmax, cross 
None 1.53 Hinton, unpublished, 2005 
entropy, weight decay 


2-layer NN, 800 HU, Cross-Entropy Loss Simard et al., ICDAR 2003 


2-layer NN, 800 HU, cross-entropy [affine 
l None 1.1 Simard et al., ICDAR 2003 
distortions] 
2-layer NN, 800 HU, MSE [elastic . 
, | None Simard et al., ICDAR 2003 
distortions | 
2-layer NN, 800 HU, cross-entropy 
None 0.7 Simard et al., ICDAR 2003 
[elastic distortions] 


NN, 784-500-500-2000-30 + nearest 
Salakhutdinov and Hinton, AIl- 
neighbor, RBM + NCA training [ None 
Stats 2007 
distortions | 
Ciresan et al. Neural 
6-layer NN 784-2500-2000-1500-1000- l 
m None 0.35 Computation 10, 2010 and arXiv 
500-10 (on GPU) [elastic distortions] 
1003.0358, 2010 
committee of 25 NN 784-800-10 [elastic width normalization, | 
, , , 0.39 Meier et al. ICDAR 2011 
distortions] deslanting 
deep convex net, unsup pre-training [no 
. . None 0.83 Deng et al. Interspeech 2010 
distortions | 


Convolutional nets 


subsampling to 
Convolutional net LeNet-1 ae LeCun et al. 1998 
16 x 16 pixels 


Convolutional net LeNet-4 LeCun et al. 1998 


Convolutional net LeNet-4 with K-NN 
| None 1.1 LeCun et al. 1998 
instead of last layer 
Convolutional net LeNet-4 with local 
ee None 1.1 LeCun et al. 1998 
learning instead of last layer 


TEST ERROR 
CLASSIFIER PREPROCESSING Reference 
RATE (%) 
Convolutional net LeNet-5, [no 
| | None 0.95 LeCun et al. 1998 
distortions] 
Convolutional net LeNet-5, [huge 
| | None 0.85 LeCun et al. 1998 
distortions] 
Convolutional net LeNet-5, [distortions | None 08 LeCun et al. 1998 


Convolutional net Boosted LeNet-4, 
[distortions | 


e 
~ 


None LeCun et al. 1998 


Trainable feature extractor + SVMs [no Lauer et al., Pattern Recognition 


40-6, 2007 


= 
OO 
UJ 


None 
distortions] 


Trainable feature extractor - SVMs Lauer et al., Pattern Recognition 


40-6, 2007 


一 
Cn 
A\ 


T" None 
[elastic distortions] 


Trainable feature extractor + SVMs 
[affine distortions | 


Lauer et al., Pattern Recognition 
40-6, 2007 


None 


unsupervised sparse features + SVM, [no 


一 
Cn 
o 


None Labusch et al., IEEE TNN 2008 


distortions] 


Convolutional net, cross-entropy [affine 
N Simard et al., ICDAR 2003 


distortions] 


Convolutional net, cross-entropy [elastic 


None Simard et al., ICDAR 2003 


= 
小 


distortions] 


large conv. net, random features [no 


一 
OO 
o 


None Ranzato et al., CVPR 2007 


distortions] 


large conv. net, unsup features [no 
| l None 0.62 Ranzato et al., CVPR 2007 
distortions] 


large conv. net, unsup pretraining [no 


None Ranzato et al., NIPS 2006 


o © 
C 

= 

Un 

JI 


distortions] 


large conv. net, unsup pretraining [elastic 


= 
oS) 
O 


one Ranzato et al., NIPS 2006 


distortions] 


large conv. net, unsup pretraining [no 


None Jarrett et al., ICCV 2009 


distortions] 


large/deep conv. net, 1-20-40-60-80-100- 
120-120-10 [elastic distortions] 


© 
Cn 
G2 


None 0.35 Ciresan et al. IJCAI 2011 


committee of 7 conv. net, 
1] -20-P-40-P-150-10 [elastic distortions] 


width normalization 0.27 +—0.02 Ciresan et al. ICDAR 2011 


committee of 35 conv. net, 
1-20-P-40-P-150-10 [elastic distortions] 


width normalization 0.23 Ciresan et al. CVPR 2012 


由 于 MNIST 是 一 个 公开 的 数据 集 ， 所 以 任何 的 算法 都 可 以 拿 来 做 测试 。 在 这 个 表 上 我 们 也 能 看 到 Linear Classifiers (线性 
分 类 器 ) 、K-Nearest Neighbors (KNN, KESA) . Boosted Stumps, Non-Linear Classifiers ( 非 线 性 分 类 器 ) 、 
SVM (支持 向 量 机 ) 、Neural Net (神经 网 络 ) 、Convolutional nets ( 卷 积 网 络 ) 这 么 几 种 大 的 分 类 器 派别 都 有 一 些 优秀 的 
代表 参与 过 “ 刷 榜 ”。 


表 上 有 4 列 ， 这 4 列 的 含义 分 别 是 CLASSIFIER 一 分 类 器 名 称 ，PREPROCESSING 一 -一 预 处理 项 ，TEST ERROR 
RATE (%) 测试 错误 率 ，Reference 参考 。 分 类 器 名 称 不 必 说 了 ， 就 是 给 这 个 分 类 器 起 的 名 字 ， 预 处 理 项 更 像 是 一 种 
注释 或 者 处 理 技巧 的 概念 ， 前 面 几 种 分 类 器 比如 有 Haar features， 就 是 指 加 入 了 Haar 特 征 的 算法 。 我 们 只 看 最 后 两 种 跟 我 们 本 


书 研 究 内 容 有 关 的 神经 网 络 和 卷 积 网 络 这 两 个 部 分 ， 提 到 了 两 种 预 处 理 ， 一 种 叫 width normalization, —##ldeslanting. 
“width normalization” 叫 做 宽度 归 一 化 ， 天 于 归 一 化 的 扩 巧 后 面 我 们 会 介绍 ， 这 种 技巧 对 提高 识别 的 准确 率 是 有 帮助 的 。 这 
个 deslanting 的 词根 是 slant 一 一 是 “倾斜 ”的 意思 ， 那 么 deslanting 就 是 防止 数据 倾斜 的 一 种 手段 了 。 


在 了 解 到 MNIST 的 一 些 表 景 信息 之后 ， 我 们 融 可 以 在 这 个 网 页 上 下 载 这 4 个 数据 文件 了 。 
- train-images-idx3-ubyte.gz: training set images (9912422 bytes) 
- train-labels-idx1-ubyte.gz: training set labels (28881 bytes) 
: t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 


: t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) 


人 家 天 文 名 字 标 得 很 到 位 ， 它 们 分 别 是 训 | 练 图 片 、 训 | 练 标 签 、 测 试图 片 、 测 试 标签 。 也 束 是 通过 训练 集 来 让 模型 来 学 习 并 认 
字 ， 并 让 模型 在 这 些 测试 图 片上 能 够 顺利 地 识别 出 它们 来 。 
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MNIST 数 据 集中 的 图 片 都 是 像 这 样 的 一 些 由 人 手写 得 到 的 数字 信息 ， 重 乍 扭 扭 什么 样子 的 都 有 。 我 们 下 面 残 用 TensorFlow 
搭建 一 个 全 连接 的 BP 网 络 来 训练 并 在 验证 集 上 测试 。 


5.2 使 用 TensorFlow 完 成 实验 


在 本 书 中 我 们 采用 全 连接 网 络 完成 MNIST 数 据 集 手写 识别 的 工作 ， 这 段 代 码 在 TensorFlow 官 方 的 GitHub 上 面 也 是 有 的 ， 
地 址 在 : https://github.com/tensorflow/tensorflow， 文 件 目录 在 : tensorflow/tensorflow/examples/tutorials/mnist/ 
中 。 


本 书 中 详细 讲解 的 代码 有 这 样 几 个 文件 fully connected feed.py、mnist.py、input data.py。 


我 们 分 别 来 看 一 下 内 容 ， 由 于 代码 非常 长 ， 所 以 我 们 在 所 有 的 行 之 前 加 入 行 号 并 把 部 分 内 容 做 了 省 略 处 理 ， 大 家 在 下 载 代码 
后 也 请 对 照 行 号 来 看 具体 的 内 容 。 先 来 看 fully connected feed.py: 


1 # 


Copyright 2015 The TensorFlow Authors. All Rights Reserved. 
33 # Basic model parameters as external flags. 
34 FLAGS = None 


def run_training(): 

117 """Train MNIST for a number of steps.""" 

118 # Get the sets of images and labels for training, validation, and 

119 # test on MNIST. 

120 data sets = input data.read data sets(FLAGS.input data dir, FLAGS.fake 
data) 


122 4 Tell TensorFlow that the model will be built into the default Graph. 
123 with tf.Graph().as default(): 

124 4 Generate placeholders for the images and labels. 

125 images placeholder, labels placeholder - placeholder inputs( 

126 FLAGS.batch size) 


128 # Build a Graph that computes predictions from the inference model. 
129 logits - mnist.inference(images placeholder, 

130 FLAGS.hiddenl, 

131 FLAGS.hidden2) 


133 4 Add to the Graph the Ops for loss calculation. 
134 loss - mnist.loss(logits, labels placeholder) 


136 4 Add to the Graph the Ops that calculate and apply gradients. 


137 train op - mnist.training(loss, FLAGS.learning rate) 


139 # Add the Op to compare the logits to the labels during evaluation. 


140 eval correct - mnist.evaluation(logits, labels placeholder) 


142 # Build the summary Tensor based on the TF collection of Summaries. 


143 summary - tf.summary.merge all() 


145 4 Add the variable initializer Op. 


146 init = tf.global variables initializer () 


148 # Create a saver for writing training checkpoints. 


149 saver = tf.train.Saver() 


151 # Create a session for running Ops on the Graph. 
152 sess = tf.Session() 


154 # Instantiate a SummaryWriter to output summaries and the Graph. 
155 summary writer = tf.summary.FileWriter(FLAGS.log dir, sess.graph) 


157 # And then after everything is built: 


159 # Run the Op to initialize the variables. 


160 sess.run(init) 


162 # Start the training loop. 
163 for step in xrange(FLAGS.max steps): 


164 start time - time.time() 


166 4 Fill a feed dictionary with the actual set of images and labels 
167 4 for this particular training step. 

168 feed dict = fill feed dict (data sets.train, 

169 images placeholder, 

170 labels placeholder) 


172 # Run one step of the model. The return values are the activations 


177 _, loss value = sess.run([train op, loss], 

178 feed dict=feed dict) 

L179 

180 duration = time.time() - start_time 

181 

182 # Write the summaries and print an overview fairly often. 

183 if step % 100 == 0: 

184 # Print status to stdout. 

185 print('Step %d: loss = %.2f (%.3f sec)' % (step, loss value, duration) ) 


186 # Update the events file. 
187 summary str = sess.run (summary, feed dict=feed dict) 
188 summary writer.add summary(summary str, step) 


189 summary writer.flush() 


190 
191 4 Save a checkpoint and evaluate the model periodically. 
192 if (step + 1) $ 1000 == 0 or (step + 1) == FLAGS.max steps: 


193 checkpoint file - os.path.join(FLAGS.log dir, 'model.ckpt') 
194 saver.save(sess, checkpoint file, global step-step) 

195 # Evaluate against the training set. 

196 print('Training Data Eval:') 


197 do eval (sess, 

198 eval correct, 

199 images placeholder, 

200 labels placeholder, 

201 data sets.train) 

202 4 Evaluate against the validation set. 
203 print('Validation Data Eval:') 
204 do eval(sess, 

205 eval correct, 

206 images placeholder, 

207 labels placeholder, 

208 data_sets.validation) 

209 # Evaluate against the test set. 
210 print ('Test Data Eval:') 

211 do eval (sess, 

212 eval correct, 

213 images placeholder, 

214 labels placeholder, 

215 data_sets.test) 


218 def main( ): 

219 if tf.gfile.Exists(FLAGS.log dir): 

220 tf.gfile.DeleteRecursively (FLAGS.log dir) 
221 tf.gfile.MakeDirs (FLAGS.log dir) 


222 run training() 


223 

224 

225 if name == ' main ': 

226 parser = argparse.ArgumentParser () 
419 


276 FLAGS, unparsed - parser.parse known args() 


277 tf.app.run(main-main, argv-[sys.argv[0]] + unparsed) 


120 行 ， 准 备 训练 、 验 证 和 测试 数 握 集 。 这 里 TensorFlow 提 供 了 内 置 模块 可 以 直接 操作 下 载 MNIST datasets 数 据 集 。 


123 行 ， 使 用 默认 图 (graph) ，TensorFlow 里 使 用 图 来 表示 计算 任务 ， 图 中 的 节点 被 称 为 Op (operation) ， 一 个 Op 获 
取 0 个 或 多 个 tensor 执 行 计 算 ， 并 产生 0 个 或 多 个 tensor。 


225 ~ 277 行 ， 解 析 命 令 行 启 动 TensorFlow。 


218 ~ 222 行 ， 启 动 TensorFlow 后 首先 调用 main 了 久 数 ， 判 断 目录 是 否 存 在 ， 和 存在 束 删除 不 存在 就 创建 。 最 后 开始 训 | 练 
MNIST 数 据 。 


TensorFlow 这 个 词汇 当然 是 Google 脐 造 出 来 的 ， 所 谓 tensor， 翻 译 成 中 文 是 张 量 ， 不 过 就 是 变量 、 向 量 的 含义 ， 在 手册 上 
有 下 面 这 样 的 解释 ， 大 家 把 它 当 成 向 量 束 可 以 了 。 


维 数 实例 
0-D 一 个 0 维 张 量 ， 一 个 纯 量 ， 
1-D 一 个 1 维 张 量 的 形式 [5]， 
[DO, D1] 2-D 一 个 2 维 张 量 的 形式 [3，4]. 
(DO, D1, D2] 3-D 一 个 3 维 张 量 的 形式 [1, 4, 3). 
(DO, Dl, ... Dn] n-D 一 个 n 维 张 量 的 形式 (DO, DI, ... Dn]. 


阶 数学 实例 Python 例子 
0 4m (只 有 大 小 ) s = 483 


向 量 ( 大 小 和 方向 ) vy = [1.1, 2.2, 3.3] 
矩阵 (数据 表 ) m= [[1, 2, 3], [4, 5, 6], [7, 8, 91] 


3 阶 张 量 (数据 立 t= [[[2], [4], [6]], [[8], [10], [12]], [[14], [16], [1 
体 ) 811] 


n 阶 (自己 想 想 看 ) 


125 ~ 126 行 ， 创 建 图片 和 其 对 应 的 标签 占 位 符 ， 后 面 真正 使 用 时 会 进行 数据 填充 ， 这 里 预先 告知 数据 的 形状 和 类 型 。 

129 ~ 140 行 ， 创 建 网 络 Op、loss Op. gradients Op, evaluation Op. 

143 行 ， 合 并 所 有 的 summary Op 为 一 个 Op。 

TensorFlow 里 所 有 出 现 summary 代 码 的 地 方 都 是 在 创建 summary Op， 用 来 保存 训练 过 程 中 你 想 要 记录 的 数据 。 比 如 : 

tf.summary.histogram('histogram', var) 

tf.summary.scalar('loss', loss) 

如 果 你 需要 记录 的 数据 很 多 ， 就 会 创建 很 多 summary Op， 这 时 候 使 用 tf.summary.merge_all 来 合并 所 有 的 summary 
Op, MEDERE. 

在 训练 过 程 中 使 用 summary FileWriter 把 这 些 数据 写 入 磁盘 。 


在 训练 完毕 后 你 就 可 以 启动 Tensorboard : 


tensorboard --logdir=path/to/logs 


然后 在 浏览 器 中 打开 Web 界 面 http://localhost: 6006 来 查看 训练 中 的 各 种 指标 数据 。 
在 训练 过 程 中 的 变化 情况 。 这 里 的 logdir 就 是 summary FileWriter 参 数 里 填写 的 路 径 。 
146 行 ， 创 建 初始 化 变量 Op。 

149 行 ， 创 建 saver 来 保存 模型 。 


152 行 ， 创 建 会 话 (session) 上 下 文 ， 图 需要 在 会 话 中 运行 。 


155 行 ， 创 建 summary FileWriter, #2summary Op 返回 的 数据 写 到 磁盘 。 


160 行 ， 运 行 初 始 化 所 有 变量 ， 之 前 创建 的 Op 只 是 描述 了 数据 是 怎样 流动 或 者 怎么 计算 ， 没 有 真正 开始 执行 运算 ， 只 有 把 
Op 放 入 sess.run (Op) 中 才 会 开始 运行 。 


163 行 ， 开 始 训练 循环 总 共 运 行 FLAGS.max_steps 个 step。 
164 行 ， 记 录 每 个 step 的 开始 时 间 。 
168 ~ 170 行 ， 取 一 个 batch 训 练 数 据 ， 使 用 真实 数据 填充 图 片 和 标 釜 占 位 符 。 


177 ~ 178 行 ， 把 一 个 batch 数 据 放 入 模型 进行 训练 ， 得 到 train_op (WARS) Floss op 的 返回 值 ， 如 果 你 想 观 察 Op 或 
者 变量 的 值 ， 需 要 把 它们 放 到 列表 里 传 给 sess.run () ， 然 后 它们 的 值 会 以 元 组 的 形式 返回 


180 行 ， 计 算 运 行 一 个 step 人 花费 的 时 间 。 
183 ~ 189 行 ， 每 100 个 step 把 summary 信 息 写 入 磁盘 一 次 


192 ~ 215 行 ， 每 1000 个 step 或 者 是 最 后 一 个 step 保 存 一 下 模型 ， 并 且 打 印 训 练 过 程 中 产生 的 模型 在 训练 、 验 证 、 测 试 数据 
集 上 的 准确 率 。 


接 下 来 是 mnist.py 文 件 : 


1 4 Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


35 import tensorflow as tf 


37 # The MNIST dataset has 10 classes, representing the digits 0 through 9. 
38 NUM CLASSES = 10 


40 # The MNIST images are always 28x28 pixels. 
41 IMAGE SIZE = 28 
42 IMAGE PIXELS = IMAGE SIZE * IMAGE SIZE 


45 def inference(images, hiddenl units, hidden2 units): 

46 """Build the MNIST model up to where it may be used for inference. 
56 # Hidden 1 

57 with tf.name scope('hiddenl') : 

58 weights = tf.Variable( 

59 tf.truncated normal ( [IMAGE PIXELS, hiddenl units], 

60 stddev=1.0 / math.sqrt (float (IMAGE PIXELS) )), 

61 name='weights' ) 

62 biases = tf.Variable(tf.zeros([hiddenl units]), 

63 name='biases') 

64 hiddenl = tf.nn.relu(tfi.matmul (images, weights) + biases) 
65 # Hidden 2 

66 with tf.name scope('hidden2') : 

67 weights = tf.Variable ( 

68 tf.truncated normal ([hiddenl units, hidden2 units], 

69 stddev=1.0 / math.sqrt (float (hiddenl_units))), 

70 name='weights' ) 

71 biases = tf.Variable(tf.zeros([hidden2 units]), 

72 name='biases') 

73 hidden2 = tf.nn.relu(tf.matmul(hidden1, weights) + biases) 
74 # Linear 

75 with tf.name scope('softmax linear'): 

76 weights - tf.Variable( 

77 tf.truncated normal([hidden2 units, NUM CLASSES], 


78 stddev-1.0 / math.sqrt (float (hidden2 units))), 
79 name-'weights') 

80 biases - tf.Variable(tf.zeros([NUM CLASSES]), 
81 name='biases') 

82 logits = tf.matmul(hidden2, weights) + biases 
83 return logits 


84 

85 

86 def loss(logits, labels): 

87 """Calculates the loss from the logits and the labels. 


96 labels = tf.to int64 (labels) 

97 cross entropy - tf.nn.sparse softmax cross entropy with logits( 
98 labels-labels, logits-logits, name='xentropy' ) 

99 return tf.reduce mean(cross entropy, name-'xentropy mean!) 


102 def training(loss, learning rate): 

103 """Sets up the training Ops. 

119 # Add a scalar summary for the snapshot loss. 

120 tf.summary.scalar('loss', loss) 

121 4 Create the gradient descent optimizer with the given learning rate. 
122 optimizer - tf.train.GradientDescentOptimizer(learning rate) 

123 4 Create a variable to track the global step. 

124 global step - tf.Variable(0, name-'global step', trainable-False) 

125 # Use the optimizer to apply the gradients that minimize the loss 

126 4 (and also increment the global step counter) as a single training step. 
127 train op - optimizer.minimize(loss, global step-global step) 

128 return train op 


129 

130 

131 def evaluation(logits, labels): 

132 """Evaluate the quality of the logits at predicting the label. 
L33 

134 Args: 

135 logits: Logits tensor, float - [batch size, NUM CLASSES]. 

136 labels: Labels tensor, int32 - [batch size], with values in the 
137 range [0, NUM CLASSES). 

138 


139 Returns: 

140 A scalar int32 tensor with the number of examples (out of batch size) 
141 that were predicted correctly. 

pau tere 

143 # For a classifier model, we can use the in top k Op. 

144 # It returns a bool tensor with shape [batch size] that is true for 
145 4 the examples where the label is in the top k (here k-1) 

146 4 of all logits for that example. 

147 correct = tf.nn.in top k(logits, labels, 1) 

148 # Return the number of true entries. 

149 return tf.reduce sum(tf.cast(correct, tf.int32)) 


这 段 代码 比 前 面 那 段 略 短 一 些 ,， 合 义 也 非常 清晰 。 

38 行 ，MNIST dataset 总 共 10 类 ，0 ~ 9 手写 数字 图 片 。 
41~42 行 ，MNIST dataset 每 张 图 片 像素 28x28。 

45 ~ 83 行 ， 构 建 网 络 。 

57 ~ 64 行 ， 第 一 层 隐 藏 层 。 

57 行 ， 设 置 命 名 空间 ， 不 同 的 命名 空间 中 变量 名 不 冲突 。 
print weigths.name 

# 输出 
hidden1 1/weights/read: 0 

58~ 61 行 ,创建 变量 和 权重 ,使 用 截断 正 态 分 布 进行 初始 化 。 
62 ~ 63 行 ,创建 变量 和 偏 置 ， 全 部 初始 化 为 0。 

64 行 (ax+b) 过 激励 肖 数 relu。 这 里 w 束 是 权重 ，b 就 是 偏向 ，a 在 第 一 层 束 是 输入 图 片 ， 不 在 第 一 层 就 是 上 一 层 的 输出 。 
66~ 73 行 ， 第 二 层 隐藏 层 。 

75 ~ 82 行 ， 线 性 层 。 

86 ~ 99 行 ， 创 建 loss Op. 

96 行 ， 类 型 转换 。 

97 ~ 98 行 ， 这 里 使 用 sparse softmax cross entropy with logits loss 每 张 图片 只 允许 被 标记 为 一 个 类 别 。 
99 行 ， 取 均值 。 

120 行 ， 记 录 |loss 变 化 数值 。 

122 行 ， 使 用 梯度 下 降 优化 器 ， 传 入 学 习 率 。 

124 行 ， 创 建 变量 来 记录 全 局 步 数 。 

127 行 ， 使 用 优化 器 的 目的 是 最 小 化 loss。 

在 最 后 运行 文件 fully connected feed.py: 


python fully connected feed.py 
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5.3. (REJ tAE 


在 实验 中 我 们 看 到 ， 用 了 区 区 几 层 网 络 忆 点 器 能 识别 这 么 丰富 的 信息 。 而 且 这 些 信 息 在 原始 的 给 出 来 的 数据 上 都 属于 上 典型 的 
线性 不 可 分 。 也 就 是 说 要 对 最 开始 给 出 来 的 图 片 数据 做 分 类 ， 而 在 图 片 数据 最 后 被 转化 成 一 个 784 维 的 向 量 的 时 候 ， 我 们 是 没有 


办 法 通过 有 限 的 空间 里 的 几 条 线 把 它们 划分 开 的 。 


在 空间 里 如 果 有 这 样 的 一 些 点 形成 的 分 类 ， 我 们 能 够 用 有 限 的 一 些 和 直线 把 它 划 分 成 几 个 空间 ， 那 束 是 非常 理想 的 了 ， 这 种 束 
是 典型 的 线性 可 分 的 模型 。 不 过 MNIST 所 提供 的 这 些 图 片 数 据 可 都 没 办 法 通过 有 限 的 这 样 几 条 直 续 来 把 图 片 癌 量 的 点 切 开 ， 大 
于 某 条 线 的 图 片 向 量 表示 的 是 “1” 小 于 某 条 线 的 表示 的 是 “0”..….. 做 不 到 。 一 条 直线 所 蕴含 的 分 类 信息 实在 是 太 有 限 了 ， 最 多 
是 切 下 去 一 刀 把 空间 分 成 两 个 部 分 ， 而 且 两 个 部 分 里 的 向 量 样本 还 非常 不 纯 一 一 掺 杂 着 其 他 类 别 的 样本 。 这 种 情况 当然 是 非 弟 
不 好 的 ， 说 明 一 个 线性 分 类 器 没 办 法 达到 足够 的 分 类 纯度 。 怎 么 办 ， 往 下 看 。 


5.3.1 “处理 线性 不 可 分 


独 经 网 络 最 强大 的 地 万 在 于 它 对 于 线性 不 可 分 问题 的 处 理 能 力 上 。 为 什么 深度 神经 网 络 有 这 么 好 的 非 绪 性 分 类 的 能 力 呢 ? 我 
们 来 看 看 当 样 本 通过 网 络 的 时 候 究 竟 友 生 了 什么 。 
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如 上 图 所 示 ， 在 一 个 二 维 空间 中 有 一 个 像 雪 伦 一 样 的 图 形 。 它 内 部 的 空间 坐标 后 (x,，y) 是 “分 类 1” , IMAA 


是 “分 类 0”。 这 样 一 个 “不 规则 ”图 形 用 普通 的 线性 分 类 器 万 式 来 做 分 类 仍然 是 无 论 如 何 找 不 到 一 条 直线 把 空间 恰好 分 为 两 个 
部 分 是 组 成 委 化 图 形 的 部 分 是 组 成 雪花 图 形 的 部 分 |, BA RADE, ORME? 


假如 我 在 空间 画 如 图 的 6 条 线 ， 分 别 叫 I1 ~ 16。6 条 线 在 空间 里 有 各 自 的 方程 表达 式 ， 就 写作 
I(x, y). Lx, y). lx, y). Lx, y). lx, y). (x, yr T, 


WNE LAR BEZJ— TSF DASIE7 NAZIS 6 ME FAA IASUBS FSS. teat, MRAR AE 
六 边 形 ， 或 六 边 形 外 侧 的 6 个 正三 角形 的 任何 一 个 中 都 叫做 在 这 个 雪花 图 形 里 ， 痢 被 称 作 “ ， 而 此 外 的 都 成 为 “分 类 
”。 和 那么 这 7 个 图 形 的 分 类 表达 陈 我 们 融 分 别 构建 一 下 吧 。 


ce 


中 心 正 六 边 形 : 
h(x,y) «0n Lay) > 0N bX, ON La, y) > ON L(x, vy) «0n Lx, y) > 0 
在 高 中 数学 里 我 们 是 学 过 的 ， 在 平面 直角 坐标 系 中 ， 如 果 有 一 条 直线 方程 : 

axtby+c=0 


那么 处 于 这 条 线 上 方 的 点 (x1，y1) 在 代入 这 个 方程 后 会 有 : 


ax,+by,+c > 0 


而 处 于 这 条 线 下 方 的 点 (X2, y2) 在 代入 这 个 方程 后 会 有 : 


ax,+by,+ce <0 


所 以 ， 中 心 正 六 边 形 的 含义 就 是 : 
fel, (x, y) BA, 
HE (x, y) EA, 
Eif£l3 (x, y) BA, 
Rel, (x, y) EÐ, 
Rls (x, y) BA, 
Fle (x, y) EA. 
ARB ase EB in IB ME 46 "NX" SRS. MURER NEAKEN X" dk, B 
把 它们 并 在 一 起 ， 那 就 算 解 决 问题 了 。 所 以 最 后 的 表达 式 就 是 这 样 : 
F(x, y)= 
(6 y) = 0 D 50 y) 90 14506») = 0 (Y. LO, v) 20 AA, y) = 0 TT EX, y) = 0) 
U 
(lix, y) ss 0 f I(x, y) < 0 () l(x, y) = 0) 
U 
(L(x, y) SS 0 f l (x, y) s 0 f L(x, y) > 0) 
U 


(bx, y) ON L(x, y) « 0 Lx, y) > 0) 
U 


(Lx, y) « 0 N 5G, y) = 0n L(x, y) > 0) 
U 
(Lx, y) <0 n fx, y) « 0n L(x, y) > 0) 
U 
(sx, y) > 0 N Lx, y) > 0 0 L(x, y) < 0) 
每 个 图 形 表达 式 之 间 是 “或 ”关系 ， 图 形 内 部 用 来 “ 抠 出 ”图 形 的 直线 之 间 是 “ 且 ” 关 系 。 最 后 代入 某 一 个 (x，y) 坐标 输 
出 1 的 瓯 是 在 雪人 花 图 形 中 的 点 ， 输 出 0 的 惑 是 在 看 化 图 形 之 外 的 点 。 这 种 线性 天 系 好 构造 吗 ? 当然 啦 ! 每 个 神经 元 节点 的 表达 式 


前 半 部 分 z==Wx+b 束 是 一 个 线性 分 类 器 的 模型 ， 而 且 还 是 任意 多 维度 的 。 棒 棒 鸣 ， 是 吧 。 那 神经 网 络 能 模拟 出 “与 或 非 ” 这 种 逻 
辑 运 算 的 非 线性 效果 吗 ? 可 以 明确 地 说 “能 ”， 我 们 往 下 看 。 


5.3.2 Hix “SBE” 


Pi UCAS Beet “M4, LX MCR AR, BEGEPS T BUASIHSESUH “SEE” AYER. 
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假设 这 个 神经 元 有 Xx1 和 和 x2 两 个 输入 项 ， 中 间 的 z=wx+b 束 是 z-=w1x1+W2x2+b， 最 后 的 输出 ” 1+。 ， 这 就 是 一 个 标准 的 用 


Sigmoid 作 为 激励 函数 的 单个 神经 元 模型 了 。 

1.“ 与 ”运算 

我 们 用 这 样 一 个 表 来 表示 x1 和 x2 两 个 输入 项 各 上 自 的 值 和 期 望 的 输出 值 O。 学 过 数字 电路 或 者 数字 逻辑 的 朋友 可 能 会 比较 熟悉 
规则 了 : 

- 两 个 1 做 “与 ”运算 ， 会 输出 1 的 结果 ; 

` 一 个 1 和 一 个 0 做 “与 ”运算 ,会 输出 0 的 结果 ; 

“两 个 0 做 “与 ”运算 ， 会 输出 0 的 结果 。 


al FEBR: 


x; 


Oo 


一 | 一 | 二 


— 


那么 构造 一 个 w 和 b 使 其 满足 上 面 这 个 约束 实际 也 是 很 容易 的 ， 取 w=[20，20]，b=-30。 这 样 通过 z=wx+b 之 后 会 得 到 下 面 
的 结果 。 


@z=wx+b 输 入 与 输出 ， 如 下 表 所 示 : 


X4 


x 
N 
N 


—" 
n 
— — 
| 
—À 
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XF MER, MA SigmoidA Af (z) = 1+e“， 很 容易 得 到 与 期 望 一 致 的 1 和 0 的 输出 结果 。 


l 
QO- 1+e 输入 与 输出 ， 如 下 表 所 示 : 


过 O 

10 0.9999546021 
一 10 0.0000433979 
=10 0.0000453979 
=30 0.0000000000 


在 保留 10 位 小 数 以 后 能 够 看 到 和 预期 很 接近 的 结果 。 所 以 构造 “与 ”运算 我 们 已 经 成 功 了 。 
同样 ， 构 造 一 个 “或 ”关系 计算 也 很 容易 。 首 先 看 下 “或 ”运算 ， 如 下 表 所 示 : 


X 


O 


— 
pó 


那么 构造 一 个 w 和 b 使 其 满足 上 面 这 个 约束 实际 也 是 很 容易 的 ， 取 w=[20，20]，b=-10。 这 样 通过 z=wx+b 之 后 会 得 到 : 


@z=wx+b 输 入 与 输出 ， 如 下 表 所 示 : 


ocoiloil-i- 
| 
e 
o 


这 样 一 个 结果 ， 骨 通过 Sigmoid 激 励 销 数 f (z) = 1+e“， 也 很 容易 得 到 与 期 望 一 致 的 1 和 0 的 输出 结果 。 


l 
QO- 1+e “输入 与 输出 ， 如 下 表 所 示 : 


Z O 
30 1.0000000000 
10 0.9999546021 
10 0.9999546021 
一 10 0.0000453979 


在 保留 10 位 小 数 以 后 几乎 也 跟 我 们 的 预期 差不多 。 所 以 构造 “或 ”运算 我 们 也 成 功 了 。 
3. "THE" 2S 


最 后 我 们 用 同样 的 近 巧 构造 一 个 “ 非 ” 运 算 。“ 非 ”运算 和 “与 ”运算 、“ 或 ”运算 不 同 ， 它 只 有 一 个 输入 ， 所 以 模型 略 有 
不 同 。 


“ 非 ”运算 看 上 去 要 简单 一 些 ， 只 有 一 个 输入 X， 如 下 表 所 示 。 


X O 
l 0 
0 l 


那么 构造 一 个 w 和 b 使 其 满足 上 面 这 个 约束 ， 取 w=[-20]，b=10。 这 样 通过 z=wx+b 之 后 会 得 到 下 面 的 结果 。 


@z=wx+b 输 入 与 输出 ， 如 下 表 所 示 。 


| 
QO- 1+e 输入 与 输出 ， 如 下 表 所 示 。 


Z O 
一 10 0.0000453979 
10 0.9999546021 


这 个 构造 仍然 是 成 功 的 。 


在 构造 “与 或 非 ” 的 过 程 中 ,我们 看 到 利用 Sigmoid 这 种 立 数 的 非 线 性 特效 能 够 为 分 类 器 3 引入 一 定 的 非 线 性 分 类 效果 ， 这 种 
特性 在 网 络 中 发 挥 着 线性 分 类 器 和 其 他 传统 的 基于 统计 的 分 类 器 所 不 能 比拟 的 作用 。 


5.3.3 ”丰富 的 VC 一 一 远大 的 空间 划分 能 


要 说 到 神经 网 络 为 什么 有 这 么 强 的 学 习 能 力 ， 束 必须 说 它 所 具备 的 一 个 强大 功能 一 一 它 有 丰富 的 VC 维 。 别 误会 ， 这 一 节 不 
是 要 给 农夫 果园 或 者 鲜 术 多 做 植 入 广告 。 这 个 VC 维 的 英文 全 称 是 Vapnik-Chervonenkis Dimension， 是 一 种 对 空间 划分 能 力 的 
表示 。 

虽 们 融 训 一 条 直 绪 能 够 把 一 个 二 维 空间 最 多 分 成 两 个 部 分 ， 一 个 平面 可 以 把 一 个 三 维 空间 最 多 分 成 两 个 部 分 ， 这 种 划分 的 能 
力 就 是 在 N 维 空间 下 的 一 个 N-1 维 空间 中 的 线性 表达 式 对 其 划分 的 能 力 。 

VC 维 的 定义 是 这 样 的 : 


邻 日 是 一 个 集合 ，C 为 集合 HNnC: =fhnclhEH}+， 如 果 HmC 包 含 了 C 的 所 有 子 集 ， 我 们 称 C 被 H 散 列 (47H) , HVCH š 


是 一 个 最 大 的 整数 D， 使 得 存在 一 个 集合 C 可 以 被 HH 分 成 DD 个 不 同 的 类 别 。 


这 种 语言 实在 是 太 星 深 了 ， 我 们 来 举 个 例子 看 看 。 


在 一 个 2 维 的 向 量 空间 空间 中 ， 如 果 样 本 数 为 3 (3 个 不 同 的 点 ) 分 类 方式 为 2 (2 种 分 类 方式 ， 轿 圈 和 叉子 ) 那么 可 以 完全 分 
开 。 殊 像 图 上 这 样 ， 除 了 三 点 严格 共 线 的 情况 以 外 (其实 这 种 情况 基本 只 在 学 术 上 有 讨论 价值 ， 因 为 如 果 不 是 你 故意 去 做 的 话 ， 


目 然 界 也 是 找 不 到 这 种 所 谓 严 格 三 点 共 线 且 偏 磊 为 零 的 情形 ， 因 为 偏 一 点 点 都 不 算 ) ， 其 他 任何 情况 下 都 可 以 用 一 条 直线 (线性 
分 类 器 f(x) =wx+b) 给 分 开 。 那 么 2 维 空间 中 的 线性 分 类 器 的 VC 维 束 是 3 (3 个 不 同 的 样本 上 后 ) 。 


想 想 看 ,一 个 借 大 的 深度 学 习 网 络 中 有 成 干 上 网 个 神经 元 ， 每 个 神经 元 可 以 设计 成 为 有 线性 分 类 能 力 的 分 类 器 ， 或 者 非 线性 

分 类 能 力 的 分 类 器 ,或 者 “与 或 非 ” 这 种 运算 能 力 。 有 了 大 量 这 些 分 类 功能 和 运算 功能 的 组 合 ， 一 个 深度 学 习 网 络 的 划分 能 力 比 

普通 的 分 类 模型 来 说 是 有 了 空前 的 提升 。 而 且 一 般 来 说 深度 越 大 ， 神 经 元 越 多 ，VC 维 束 越 高 ， 划 分 的 能 力 就 越 强 ， 分 类 的 能 
力 束 越 停 人， 学习 a 到 的 内 容 束 越 丰富 。 


VC 维 既然 这 么 好 ， 那 我 随便 一 个 网 络 是 不 是 都 是 设计 得 越 深 越 好 ， 内 容 越 丰富 越 好 ， 这 样 束 一 定 能 训练 出 好 的 模型 来 呢 ? 


答案 却 是 人 否定 的 。 


首先 网 络 越 大 ， 所 要 训练 的 w 和 b 束 越 多 ， 训 练 过 程 中 的 计算 复杂 度 就 越 高 ， 收 线束 越 慢 ， 这 个 是 一 定 的 。 所 以 现在 在 网 络 
设计 稍微 复杂 一 点 的 环境 中 都 不 得 不 使 用 GPU 来 加 强 并 行 计算 的 能 力 ， 因 为 使 用 CPU 做 训 | 练 的 收 全 速度 实在 是 太 慢 了 ， 在 本 书 
涉及 的 这 些 相对 简单 的 深度 学 习 网 络 中 ， 如 果 你 用 CPU 进 行 训 练 ， 恐 怕 都 是 动 辆 数 十 小 时 甚至 是 数 天 之 久 的 比 马拉松 还 要 夸张 


得 多 的 过 程 。 


再 者 ， 训 练 样本 和 标签 之 间 所 拥有 的 客观 存在 的 关系 本 质 ， 是 能 人 否 够 训练 出 优质 模型 的 关键 ， 这 点 非常 重要 。 所 以 那些 盲目 
崇拜 深度 学 习 的 朋友 先 考 虑 一 下 这 个 问题 。 如 果 你 的 训练 样本 中 的 特征 数据 (输入 的 x 维度 ) 与 标签 项 之 间 的 本 质 天 系 假设 是 有 
误 的 ， 那 么 神经 网 络 训练 多 久 都 不 会 收敛 到 你 满意 的 程度 。 或 者 损 一 个 显得 学 术 一 些 的 襄 法 ， 如 果 你 提供 的 训练 数据 同 量 人 在 标 稚 
分 类 的 过 程 中 ， 没 办 法 使 得 信息 业 下 降 ， 那 融 没 办 法 训练 出 好 的 模型 。 举 个 例子 ， 如 果 你 想 通过 一 系列 有 关 天 气 的 x 同 量 (Cu 
温 、 气 压 、 温 度 、 湿 度 、 风 速 、 风 和 向、 月份、 日 期 、 小 时 、 经 度 、 维 度 ) 和 y 向 量 (未 来 1 小 时 降水 概率 ) 这 一 训练 样本 集合 来 
训练 一 个 模型 ， 预 测 未 来 1 小 时 降水 概率 的 话 ， 虽 然 我 没有 做 这 个 实验 ,我 也 会 党 得 只 要 网 络 设计 的 基本 合理 还 是 会 得 到 一 个 相 
对 满意 的 结果 的 ， 起 码 我 会 区 得 这 些 维度 对 于 最 终 判 断 一 个 降水 概率 是 有 贡献 的 。 如 果 x 向 量 给 的 不 是 这 样 的 数据 而 是 其 他 形式 
的 数据 则 会 有 问题 ， 比 如 x 同 量 为 “气温 、 气 压 ”， 或 者 x 向 量 为 “当天 大 米 价 格 ”。 前 者 我 们 看 到 有 气温 和 气压 两 个 维度 ， 这 两 
个 维度 应 该 说 对 降雨 是 有 影响 的 ， 但 是 似乎 不 够 ， 两 个 维度 不 足以 把 分 类 的 业 降 到 足够 低 ， 不 足以 把 降水 概率 预测 准 。 第 二 个 残 
很 充 唐 了 ， 这 两 者 几乎 是 没有 什么 联系 ， 如 果真 的 放 到 网 络 里 去 训练 ， 应 该 是 Loss 消 数 一 直 都 很 大 ， 然 后 怎么 训练 都 不 下 降 .…… 
这 简直 是 一 定 的 啊 ， 这 种 情况 会 难为 死神 经 网 络 的 ， 这 根本 就 是 很 独立 的 两 件 事情 。 


最 后 一 点 ， 丰 富 的 VC 维 会 让 网 络 处 于 容易 过 拟 合 的 状态 。 过 拟 合 是 几乎 所 有 的 机 器 学 习 算法 中 都 有 可 能 会 遇 到 的 问题 ， 天 
于 成 因 和 防止 的 万 法 我 们 好 好 讨论 一 下 。 
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所 谓 传统 的 机 器 学 习 也 好 ， 深 度 学 习 也 轻 ， 其 实 目的 都 是 用 机 器 代替 人 来 学 习 一 些 事物 的 特征 ， 进 而 帮助 人 类 做 出 判断 或 者 
自动 处 理 。 但 是 ， 与 传统 的 机 器 学 习 概念 不 同 ， 深 度 学 习 背 后 原理 的 解释 性 非常 差 ， 我 们 来 做 个 比较 。 


以 传统 机 器 学 习 中 的 监督 学 习 为 例 ， 朴 素 贝 叶 斯 实现 的 是 概率 量化 计算 的 模型 ， 它 的 解释 是 通过 对 样本 的 统计 ， 然 后 算出 某 
件 事 A 发 生 的 概率 和 某 件 事 B 发 生 的 概率 之 间 的 量化 关系 。 


决策 树 实现 的 是 通过 选择 合适 的 维度 来 增加 约束 条 件 降低 分 类 的 信息 炳 。 


回归 模型 是 通过 建 模 和 拟 合 来 确定 待定 系数 ， 通 过 不 断 调 整 待定 系数 的 大 小 来 降低 残 差 的 大 小 ， 也 瓯 是 降低 模型 预测 值 与 训 
练 目 标 值 的 差距 。 


SVM 是 通过 起 平面 来 分 割 空间 中 不 同 的 分 类 向量 ， 让 它们 到 超 平 面 的 距离 尽 可 能 远 .….. 这 些 模型 的 物理 解释 非常 明确 ， 每 一 
个 步骤 每 一 个 得 到 的 模型 中 的 系数 都 有 着 清晰 的 合 义 。 而 且 ， 辣 量 的 维度 数量 和 维度 值 是 一 定 要 由 我 们 人 类 来 归纳 量化 的 。 把 这 
些 人 提取 过 的 有 清晰 消 数 的 量化 值 放 入 模型 进行 训练 得 到 的 模型 ， 解 释 也 束 会 让 人 完 得 其 意义 非常 明确 。 


深度 学 习 与 此 不 同 的 是 ， 它 通过 大 量 的 线性 分 类 器 或 非 线性 分 类 器 、 可 导 或 不 可 导 的 激励 函数 ， 以 及 池 化 层 (在 卷 积 网 络 中 
会 用 到 这 种 设计 ) 等 功能 对 观测 对 象 的 特征 进行 自动 化 的 提取 。 例 如 一 张 图 ， 比 方 说 刚刚 的 M NIST 数 据 集中 的 图 ， 这 些 图 都 是 
把 像素 级 别 的 向 量 直接 放 入 神经 网 络 ， 人 们 已 经 不 对 这 类 数据 再 做 一 次 归纳 和 特征 提取 了 。 神 经 网 络 有 丰富 的 感知 功能 ， 能 够 把 
这 些 最 小 级 别 的 数值 提取 出 来 ， 例 如 一 个 像素 的 RGB 颜色 ， 通 过 网 络 训练 的 过 程 逐步 发 现 其 中 的 特征 规律 。 神 经 网 络 丰富 的 VC 
维 是 有 这 个 能 力 的， 能够 发 现 那些 在 训练 数据 集中 体现 出 来 共性 的 对 网 络 的 刺激 ， 忽 略 那些 训练 样本 之 间 的 对 分 类 影响 微 平 其 和 
的 维度 的 差异 。 这 种 不 用 人 类 再 帮助 机 器 提取 特征 的 特性 确实 非常 吸引 人 ， 不 过 要 让 它 能 够 为 我 们 完成 这 件 事 ， 就 要 在 网 络 中 提 
供 丰 富 的 VC 维 一 一 通常 的 手段 就 是 加 深 网 络 的 深度 ， 加 多 神经 元 的 数量 。 我 们 粗略 想 一 个 数量 级 吧 ， 如 果 一 个 神经 元 能 够 成 功 
分 开 两 个 分 类 输出 1 和 0 一 一 21， 那 么 两 个 神经 元 理论 上 应 该 最 多 就 能 成 功 分 开 4 个 分 类 一 一 2<，1000 个 神经 元 就 是 21000 个 分 类 
一 一 大 概 是 1x 10301 这 么 多 ! 

拥有 如 此 好 的 分 类 能 力 会 带 来 两 个 问题 : 

其 一 ， 在 这 么 复杂 的 网 络 中 ， 如 此 多 的 w 已 经 早 就 没有 了 统计 学 中 的 权 值 权 重 的 意义 ， 无 法 得 到 清晰 的 物理 解释 ， 也 无 法 有 
效 地 进行 逆向 研究 。 所 以 深度 学 习 的 模型 训练 得 再 好 也 只 能 当成 一 个 黑匣子 来 使 用 。 例 如 ， 我 把 大 量 的 广告 图 片 向 量 ， 比 如 


1000 万 张 图 片 的 像素 级 向 量 x 和 每 张 图 片 的 点 击 量 充 当 的 标签 y 作 为 训练 样本 给 到 神经 网 络 让 它 训 练 。 训 | 练 完了 之 后 在 网 络 中 得 
到 了 很 多 的 w 和 b， 然 而 这 些 w 和 b 的 大 小 已 经 没有 解释 了 一 一 起 码 不 能 解释 为 对 某 个 像素 的 感知 权重 更 高 ， 它 们 之 间 的 蔷 加 关系 


太 复 杂 了 。 而 这 种 不 能 解释 的 模型 现在 还 在 大 行 其 道 ， 而 且 很 多 人 还 愿意 来 研究 已， 主要 是 因为 这 种 模型 在 实验 中 的 恨 好 表现 和 
良好 的 泛 化 性 特点 一 一 也 残 是 换个 数据 集 ， 换 个 场景 还 能 用 神经 网 络 的 建 模 思路 得 到 解决 方案 。 


其 二 ， 这 种 拥有 极 高 的 VC 维 的 网 络 能 够 学 到 很 多 东西 ， 包 括 那 些 样本 中 所 包含 的 噪声 信息 或 者 特例 信息 ， 这 是 极为 糟 标的 
事情 。 这 种 学 习 能 力 通常 会 导致 ， 你 把 个 案 性 的 训练 样本 给 到 神经 网 络 ， 它 能 把 每 个 个 案 中 的 特点 都 牢 牢 记 下 来 ， 在 训练 集 上 的 
Loss 能 保证 很 低 ， 识 别 率 极 遍 ， 但 是 换个 新 样本 来 让 它 识别 ， 它 融会 严重 误 判 。 
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这 融 好 比 我 们 教 孩 子 看 图 说话， 给 他 看 的 乐 西 越 多 ， 万 其 是 同样 的 乐 西 多 给 他 看 几 种 ， 这 种 情况 下 ， 他 目 己 融会 进行 归纳 总 
结 ， 忽 略 掉 这 些 样本 之 间 的 差异 ， 找 出 共性 ， 来 提高 泛 化 性 。 可 是 如 果 你 只 给 它 看 过 极 少 的 样本 ， 他 误 判 的 可 能 性 束 会 变 高 ， 泛 
化 性 就 会 变 差 。 比 如 ， 你 只 给 他 看 过 一 张 SUV (sport utility vehicle， 即 运动 型 多 用 途 汽 车 ) 的 照片 ， 告 诉 他 这 叫 汽车 ， 他 也 确 
实 记 住 了 ， 出 门 后 看 到 一 辆 水 泥 色 大 卡车 ， 他 就 会 完 得 疑惑 ， 因 为 这 个 东西 跟 你 教 给 他 的 汽车 样子 相差 实在 是 太 多 了 。 而 如 果 你 
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行走 的 ， 有 玻璃 ， 有 车 灯 …… 这 下 他 再 见 到 别 的 车 辆 类 别 可 能 也 能 顺利 识别 了 。 


看 看 ， 过 拟 合 的 原因 和 预防 方法 我 们 都 已 经 总 结 出 来 了 。 


原因 : 样本 过 少 ， 不 足以 总 结 归 纳 其 共性 。 参 数 过 多 ， 能 够 拟 合 极为 复杂 的 特征 内 容 。 

改善 方案 : 增加 样本 数量 ， 理 论 上 说 是 越 多 越 好 。 

检查 手段 : 拿 一 些 样 本 来 验证 一 下 。 

在 现在 的 以 深度 学 习 为 技术 基础 的 工程 实现 方面 ， 通 常会 把 拿 到 的 所 有 样本 数据 分 为 下 面 三 个 集合 。 
1) 训练 集 (training set) : 用 来 学 习 的 样本 集 ， 通 过 这 些 向 量 来 确定 网 络 中 的 各 个 待定 系数 。 


2) 验证 集 (validation set) : 是 用 来 调整 分 类 器 的 参数 的 样本 集 ， 在 训练 的 过 程 中 ， 网 络 模型 会 立刻 在 验证 集 进行 验证 。 
我 们 会 同步 观察 到 在 这 个 验证 集 数 据 上 模型 的 表现 如 何 ， 损 失 函 数值 是 否 会 下 降 ， 准 确 率 是 否 在 提高 。 


3) 测试 集 (test set) : 测试 集 则 是 在 训练 后 为 测试 模型 的 能 力 (主要 是 分 类 能 力 ) 而 设置 的 一 部 分 数据 集合 。 


通常 训练 集会 在 所 有 样本 中 占 大 头 ， 例 如 50%、60% 抑 或 更 多 。 验 证 集 和 测试 集 相对 都 比较 小 ， 大 概 数量 级 别 是 在 25%、 
20% 甚 至 有 可 能 更 少 一 些 。 


注意 ， 验 证 集 是 我 们 在 深度 学 习 中 预防 过 拟 合 的 手段 之 一 ， 也 可 以 说 是 深度 学 习 训练 过 程 中 的 标 配 。 在 TensorFlow 中 是 在 
训练 的 过 程 中 用 训练 集 不 断 训 练 的 同时 也 将 模型 在 验证 集 上 做 应 用 作为 一 个 测试 过 程 。 在 训练 集 上 的 Loss 是 在 不 断 降 低 的 而 准确 
率 Accuracy 是 在 人 不断 升 高 的 ， 因 为 训练 中 会 为 了 降低 Loss 不 断 调 整 ， 学 到 更 多 更 深层 的 信息 。 但 是 在 测试 集 上 你 几乎 一 定 会 
到 一 种 现象 ， 就 是 Loss 在 下 降 到 一 定 程度 之 后 反而 开始 擎 升 ， 或 者 准确 率 Accuracy 在 上 涨 到 一 定 程度 后 开始 下 降 。 这 个 拐点 的 
位 置 下 是 过 拟 合 的 开始 ， 请 注意 在 这 一 点 开始 的 时 候 终 止 训 练 。 
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到 目前 为 止 我 们 已 经 学 会 了 在 TensorFlow 环 境 下 实现 一 个 手写 数字 识别 功能 的 简易 神经 网 络 了 。 并 且 在 神经 网 络 训练 中 的 
各 种 基础 理论 和 最 为 核心 的 问题 都 已 经 接触 到 了 ， 怎 么 样 ， 不 难 吧 ? 基本 高 中 以 前 的 知识 残 够 用 了 。 


这 才 是 一 款 开胃 的 父 前 小 菜 ， 大 菜 还 在 后 面 。 下 面 我 们 还 会 再 多 接触 几 种 不 同 的 网 络 结构 ， 这 些 网 络 结构 也 是 形形色色 ， 大 
部 分 都 是 来 自 一 些 国外 车 名 高 校 实 验 室 或 者 先进 的 科研 团体 在 研究 过 程 中 通过 不 断 尝 试 友 现 的 一 些 新 的 网 络 连接 方式 ， 在 不 同 的 
领域 会 有 一 些 格外 民 好 的 效果 。 


Om SIRENE 


在 前 面 我 们 已 经 提 过 了 ， 神 经 网 络 不 是 一 个 具体 的 算法 ， 而 是 一 种 模型 构筑 的 思路 或 者 方式 。 在 这 个 思路 或 者 方式 的 指引 
下 ,我 们 已 经 成 功 地 构筑 了 BP 网 络 。 这 种 线性 分 类 器 后 面 直接 跟随 激励 肖 数 形成 神经 元 ， 然 后 前 后 首尾 相 接 形成 网 络 的 方式 应 
该 况 并 个 难 理解 。 


不 过 随 着 神经 网 络 技术 的 进化 与 发 展 ， 我 们 慢 慢 也 友 现 了 BP 网 络 的 局 限 性 。 所 以 才 想 到 是 人 否 可 以 设计 一 些 新 的 神经 元 的 逻 
辑 结 构 ， 或 者 连接 方式 来 做 个 补 序 。 卷 积 网 络 惑 是 一 种 很 有 葵 的 过 试 ， 而 且 这 一 芝 试 束 一 友 不 可 收拾 ， 到 现在 为 止 ， 绝 大 多 数 和 在 
模式 识别 应 用 中 表现 好 的 网 络 都 在 一 定 程度 上 借鉴 了 卷 积 神经 网 络 的 天 键 组 件 。 这 一 章 我 们 融 来 看 看 卷 积 网 络 究竟 有 什么 厉害 的 
地 万 。 


6.1 与 全 连接 网 络 的 对 比 


我 们 在 前 两 章 中 已 经 看 到 了 BP 网 络 的 工作 原理 。 在 我 们 举 的 例子 中 ， 这 些 神 经 元 之 间 彼 此 连接 的 方式 有 一 个 特点 ， 那 束 是 
每 一 个 神经 元 刁 点 的 输入 都 来 自 于 上 一 层 的 每 一 个 神经 元 的 输出 。 这 种 方式 束 叫 做 全 连接 网 络 (full connect network) 一 一 整 
个 网 络 的 每 一 层 都 是 以 这 种 “全 连接 ”方式 完成 的 。 当 然 了 ，BP 网 络 也 可 以 不 是 全 连接 的 。 后 面 我 们 还 会 接触 到 一 些 网 络 不 是 
全 连接 的 ,或 者 只 有 个 别 层 是 全 连接 的 。 


全 连接 网 络 的 好 处 从 它 的 连接 方式 上 看 是 每 个 输入 维度 的 信息 都 会 传播 到 其 后 任何 一 个 节点 中 去 ， 会 最 大 程度 地 让 整个 网 络 
中 的 节 扣 都 不 会 “ 漏 掉 ”这 个 维度 所 贡献 的 因素 。 不 过 它 的 缺点 更 为 明显 ， 那 束 是 整个 网 络 由 于 都 是 “全 连接 ”方式 ， 所 以 w 和 
b 格 外 多 ， 这 就 使 得 训练 过 程 中 所 要 更 新 的 权重 非常 多 ， 整 个 网 络 训练 的 收敛 也 会 非常 慢 。 对 于 像 图 片 识 别 这 种 输入 像素 动 加 数 
RABE (以 像素 点 为 单位 ) 的 分 类 处 理 ， 融 会 变 得 不 可 行 ， 因 为 根本 找 不 到 计算 速度 能 够 满足 需要 的 处 理 器 。 不 过 好 在 前 厘 中 
还 是 大 神 多 ， 多 亏 他 们 发 明了 卷 积 神经 网 络 (convolutional neural network, CNN) 。 


卷 积 神经 网 络 同样 是 一 种 前 馈 神 经 网 络 ， 它 的 神经 元 可 以 响应 一 部 分 覆盖 沁 围 内 的 周围 单元 ， 对 于 大 规模 的 模式 识别 都 是 有 
着 非常 好 的 性 能 表现 的 ， 尤 其 是 对 大 规模 图 形 图 像 处 理 效率 极 高 ， 这 也 是 大 家 热衷 研究 这 类 网 络 的 重要 原因 。 


早 在 20 世 纪 60 年 代 ， 美 国 神经 生物 学 家 Hubel 和 Wiesel 在 研究 猫 脑 皮 层 中 用 于 局 部 敏感 和 方向 选择 的 神经 元 时 友 现 其 独特 
的 网 络 结构 可 以 有 效 地 降低 反馈 神经 网 络 的 复杂 性 ， 继 而 提出 了 卷 积 神经 网 络 。 现 在 ，CNN 已 经 成 为 众多 科学 领域 的 研究 热点 
之 一 ， 特 别 是 在 模式 分 类 领域 ， 由 于 该 网 络 避免 了 对 图 像 的 复杂 前 期 预 处 理 ， 可 以 直接 输入 原始 图 像 ， 因 而 得 到 了 更 为 广泛 的 应 
用 。 AAAS FBZ (Kunihiko Fukushima) 在 20 个 世纪 90 年 代 提 出 的 新 识别 机 是 卷 积 神经 网 络 的 第 一 个 实现 网 络 。 随 后 ， 更 
多 的 科研 工作 者 对 该 网 络 进行 了 改进 。 


郑 积 网 络 有 两 个 比较 大 的 特点 。 
其 一 : 卷 积 网 络 有 至 少 一 个 卷 积 层 ， 用 来 提取 特征 。 


其 二 : 卷 积 网 络 的 卷 积 层 通过 权 值 共享 的 方式 进行 工作 ， 大 大 减少 权 值 w 的 数量 ， 使 得 在 训练 中 在 达到 同样 识别 率 的 情况 下 
收敛 速度 明显 快 于 全 连接 BP 了 网 络 。 


卷 积 网 络 主要 用 来 识别 位 移 、 缩 放 及 其 他 形式 扭曲 不 变性 的 二 维 图 形 。 由 于 它 的 特征 检测 层 通过 训练 数据 进行 学 习 ， 所 以 在 
使 用 卷 积 网 络 时 ， 避 免 了 显 式 的 特征 抽取 ， 而 隐 式 地 从 训练 数据 中 进行 学 习 ; 再 者 由 于 同一 特征 映射 面 上 的 昼 经 元 权 值 相同 ， 所 
以 网 络 可 以 并 行 学 习 ， 这 也 是 卷 积 网 络 相对 于 神经 元 彼此 相连 网 络 的 一 大 优势 。 卷 积 神经 网 络 以 其 局 部 权 值 共享 的 特殊 结构 在 语 
音 识别 和 图 像 处 理 方面 有 着 独特 的 优越 性 ， 其 布局 更 接近 于 实际 的 生物 神经 网 络 ， 权 值 共 享 降低 了 网 络 的 复杂 性 ， 特 别 是 多 维 输 
入 辣 量 的 图 像 可 以 直接 输入 网 络 这 一 特点 避免 了 特征 提取 和 分 类 过 程 中 复杂 的 数据 重建 。 后 面 我 们 会 有 具体 的 示例 来 说 明 它 工作 


的 流程 。 
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为 了 了 解 卷 积 神经 网 络 的 实质 ， 我 们 简单 说 说 卷 积 是 什么 。 


TZ, SR (convolution) 是 一 种 消 数 的 定义 。 它 是 通过 两 个 浮 数 fg 后 成 第 三 个 辫 数 的 一 种 数学 算 子 ， 表 征 涪 
数 f 己 g 经 过 翻转 和 平移 的 重 付 部 分 的 面积 。 


在 通信 工程 领域 ， 卷 积 是 常用 的 一 种 计算 方法 ， 我 们 通常 用 到 卷 积 也 是 和 侍 里 叶 变 换 有 关系 。 大 家 在 知 乎 上 权 查 找 的 话 ， 可 
以 找到 很 多 对 卷 积 的 解释 ， 有 不 少 不 仅 形象 还 通俗 易 履 ， 大 家 有 兴趣 自己 去 找 吧 ， 我 这 边 用 一 个 相对 简便 的 方法 做 解释 了 。 


知 积 的 数学 定义 是 这 样 的 : 


h(x) = f(x)* 692 [^ f(gGx- 0dt 


积分 推导 咱们 就 不 搞 了 ， 我 们 只 解释 一 下 积分 式 所 表示 的 含义 。 符 号 “小 ”就 是 积分 符号 ， 比 如 : 


+00 
BEA 
—00 


ICT AAIUBUS RIOT TB, X MEST RIB (x) 与 x 轴 围 成 的 图 形 的 面积 。 这 里 +co 和 -co 所 表示 的 是 这 个 图 
形 在 x 轴 方 向 上 的 限制 边界 ， 那 +% 和 -co 束 表 示 没 有 边界 限制 了 。 


*1/6*exp((-(x^2))/10)" WAI 


x 6.59792112 y.0.00214414 x 659792112 y.0.00214414 


如 果 换 个 表达 式 : 


则 是 表示 f (x) Sxl MEARS "AJ" , —JJf£x--2, 一 刀 在 x=3。 这 样 切 完 之 后 实际 上 表示 的 合 义 束 是 
f (x) 、y=0、x=-2、x=3 这 四 条 直线 或 曲线 所 围 成 的 面积 了 ， 这 个 侣 义 应 该 很 简单 喉 。 好 ， 回 来 再 看 卷 积 表达 式 的 合 义 。 


那么 我 们 看 到 的 这 个 积分 式 里 面 f (t) g (x-t) 是 什么 呢 ? 其 实 是 这 样 ，f (t) 先 不 动 ，g Ct) 相当 于 g (t) 函数 的 图 像 沿 
看 y 轴 (t=0) 做 了 一 次 翻转 。g Oct) 相当 于 g CO 的 整个 图 像 沿 看 t 轴 进行 了 平移 ， 同 右 平 移 了 x 个 单位 。 


做 过 这 个 变换 之 后 ， 可 以 想象 这 一 共 是 有 两 个 立 数 ， 一 个 是 固定 的 消 数 ， 一 个 是 滑动 的 浮 数 ， 求 它们 相 之 后 围 起 来 的 面 


积 ， 滑 动 的 变量 束 是 x。 


我 们 看 下 图 所 示 : 


f (t) 融 是 一 个 三 角 ， 在 第 二 象限 是 一 条 过 (-1, 0) 和 (0, 1) 后 的 线段 ， 在 第 一 象限 是 一 条 过 (0, 1) 和 (1, 0) 后 的 
线段 。 


Ko (t) 是 一 个 正方 的 脉冲 波 ，t 在 [1，2] 上 有 定义 ， 在 这 段 区 间 里 g (t) =t. Bag Oct) 是 左 侧 的 这 个 做 过 翻转 的 图 
形 ， 图 示 中 还 分 别 有 x=-2，x=-1，x=0，x=1，x=2 时 的 图 像 。 
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我 们 观察 到 ， 在 这 个 不 定 积 分 完毕 后 ， 会 形成 两 个 浮 数 车 加 的 部 分 ， 其 中 x 是 一 个 变量 。 假 设 x 为 0， 或 者 我 们 当 x 压 根 不 存 
在 ,那么 束 是 f(t) 和 g (-t) 这 两 个 销 数 相 乘 后 和 y=0 (tH) 围 成 的 面积 。 当 x 出 现 后 ，x 是 帮 看 g (-t) 图 像 左 右 平移 的 ， 网 网 
我 们 也 看 到 这 个 图 像 的 变化 过 程 了 ， 那 么 会 变 成 什么 样 ? palit, jx BSEXh (x) 的 值 束 是 求 一 个 面积 和 x 的 天 系 ， 而 这 个 所 襄 
的 面积 融 是 函数 f (t) 和 g Oct) 相 乘 后 的 曲线 和 y=0 (tH) 围 成 的 面积 ， 其 中 自 变 量 是 x。 在 随 大 x 变化 的 移动 过 程 中 ， 由 于 
g (x-t) 移动 产生 的 h (x) 的 对 应 变化 丈 是 整个 卷 积 公式 的 意义 了 一 一 一 个 移动 中 用 x 进行 取样 的 过 程 ， 或 者 说 特征 提取 。 


如 果 帝 得 这 个 忒 西 理解 不 了 ， 或 者 实在 想不到 有 什么 用 ， 也 没有 关系， 因为 对 于 工学 层面 的 应 用 来 讽 ， 卷 积 本 身 的 含义 以 及 
推导 我 们 在 生产 生活 中 通常 没有 机 会 接触 。 大 家 在 脑海 里 丈 形 成 一 个 移动 过 程 中 做 乘积 的 印象 束 足 够 了 。 


6.3 MHZ 


HERA THEE EBREASERBUAO Wm, BBISÉTRUAWUABEREST, ANKIRSHRCe tsa PARR RME T. 
我 们 先 看 卷 积 核 的 表达 方式 ， 它 的 表达 式 为 
f (x) =wxtb 


可 能 有 人 会 问 是 不 是 写 错 了 ， 这 不 是 卷 积 核 ， 这 束 是 一 个 普通 的 神经 元 的 线性 处 理 的 部 分 。 其 实 你 这 么 看 倒是 也 不 能 算 错 ， 


因为 从 计算 逻辑 的 角度 来 看 还 真 笑 不 多 。 


对 ITE 


Convoluted Feature 


Ci Zip 


我 们 先 想 象 这 里 有 一 张 图 片 ， 图 片 有 5x 5 一 共 25 个 像素 点 ， 每 个 像素 点 只 有 1 和 0 两 种 取 值 。 当 然 了 ， 这 种 图 别 训 是 在 目 然 


， 束 是 我 们 精心 设计 也 很 难 设计 出 来 ， 因 为 设计 出 来 我 也 不 知道 用 它 来 表示 什么 玩意 儿 比 较 好 ， 我 们 权 且 假设 有 这 样 一 种 图 
。 那 么 提取 这 样 的 一 种 图 的 特征 ， 我 们 可 以 乞 随便 设计 一 个 卷 积 核 来 看 看 到 底 会 产生 什么 结果 ， 我 们 设计 一 个 特别 简单 的 卷 积 


w 由 9 个 1 构成 ， 在 这 个 场景 里 ， 我 们 指 图 中 黄色 部 分 的 这 个 3x3 的 小 方 框 ， 从 左 到 右 从 上 到 下 的 这 9 个 点 作为 x 向 量 ， 挨 个 与 


w 相 乘 完成 内 积 操作 ， 并 与 b 相 加 。 这 个 过 程 就 是 这 样 了 : 


f (x) =1X1+1X1+1X1+1X0+1X1+1X1+1X0+1X0+1X1+0=6 


那么 左上 角 的 这 个 黄色 小 方 框 束 会 输出 一 个 6， 我 们 把 6 单独 存在 一 个 存储 空间 里 ， 这 个 存储 空间 丈 叫 做 这 个 卷 积 层 的 


Feature Map， 也 残 是 图 中 所 示 的 Convoluted Feature 这 个 部 分 。 我 们 看 在 这 样 一 个 操作 下 ，9 个 点 的 信息 被 压缩 成 了 一 个 
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当然 这 肯定 是 有 损 压 缩 了 ， 还 原 肯 定 是 还 原 不 回去 了 。 不 过 确实 在 这 个 过 程 中 有 这 样 一 个 信息 抽象 的 过 程 ， 大 家 请 注意 ， 这 


个 抽象 过 程 束 是 特征 的 提取 。 


我 们 把 这 个 小 黄 方 框 的 操作 继续 从 二 到 右 ， 从 上 到 下 每 次 移动 一 个 方 格 ， 融 相当 于 前 面 我 们 说 的 f (t) 和 g Oct) PATERE 
通过 x 变 化 来 滑动 一 样 做 这 样 一 个 卷 积 操作 ， 那 么 右 侧 的 Feature Map 的 每 个 点 的 值 也 都 能 对 应 产生 结果 了 。 根据 我 们 设计 的 卷 
积 核 的 w 和 b 的 值 ， 剩 下 的 8 个 输出 值 应 该 分 别 是 : 7、6、4、7、7、4、6、6。 这 样 一 来 25 个 点 的 信息 量 就 被 压缩 成 了 9 个 点 ， 
完成 了 特征 提取 和 压缩 两 个 功能 。 


这 就 是 卷 积 层 工作 的 大 致 方式 。 人 至 于 w 和 b 在 初始 化 之 后 ， 也 是 通过 一 轮 一 轮 的 训练 ， 在 降低 损失 遂 数 的 目的 下 不 断 变 化 而 
学 习 到 的 ， 而 不 是 我 们 指定 出 来 的 。 


在 卷 积 核 的 f (x) =wx+b 输 出 后 还 可 能 会 跟着 一 个 激励 函数 而 且 也 一 般 会 定义 一 个 激励 函数 跟随 其 后 ， 现 在 的 CNN 网 络 中 
的 激励 函数 非常 喜欢 用 ReLU。 不 过 你 也 会 帮 现 在 实际 工作 中 ， 可 能 会 用 别 的 激励 函数 跟 人 在 卷 积 核 后 面 进行 工作 ， 或 者 不 用 激励 
国 数 。 理 由 通 囊 都 是 为 了 在 一 些 特 殊 的 场景 中 有 更 好 的 表现 ， 共 性 我 还 没 总 结 出 来 ， 不 过 ReLU 作 为 激励 函数 的 场合 应 该 说 是 最 
常见 的 。 

当然 了 ， 卷 积 核 中 的 w、b 需 要 通过 训练 来 得 到 ， 是 模型 中 非常 重要 的 参数 。 从 物理 意义 上 去 理解 ， 大 概 是 这 种 感觉 ， 前 面 
输入 过 来 的 向 量 ， 用 这 “一 眼 ” 看 过 去 对 于 视野 中 不 同位 置 的 关注 程度 或 者 采纳 程度 是 不 同 的 ， 而 这 个 关注 程度 或 者 采纳 程度 就 
用 w、b 来 量化 表示 。 


6.4 SARRIAS 


在 卷 积 核对 前 面 输 入 的 这 一 层 数 据 癌 量 进行 扫 擅 的 时 候 ， 还 有 几 个 别 的 参数 需要 注意 ， 一 个 是 Padding (填充 ) ， 一 个 是 


Striding (2518) ， 这 个 参数 的 合 义 很 形象 。 


先 说 Padding，Padding 是 撒 用 多 少 个 像素 单位 来 填充 输入 图 像 (Fle) 的 边界 。 残 像 图 上 所 画 ， 在 这 四 周 的 区 域 里 都 进行 
Padding， 通 单 都 是 填 元 0 值 。 当 然 一 般 不 会 有 像 我 们 图 上 画 的 这 么 大 比例 的 Padding 了 ， 在 800x600 的 图 过 卷 积 层 的 时 候 ， 能 
在 四 周 各 Padding 上 5 到 10 个 单位 就 不 少 了 。 


Padding 


` Padding 
Padding 的 用 途 大 概 可 以 理解 为 两 种 目的 。 


目的 1: 保持 边界 信息 。 因 为 如 果 不 加 Padding 的 话 ， 最 边缘 的 像素 点 信息 其 实 仪 仅 被 卷 积 核 扫 摘 了 一 志 ， 而 图 像 中 间 的 像 
素 点 信息 会 被 扫 摘 多 遍 ， 在 一 定 程度 上 等 于 降低 了 边界 上 信息 的 参考 程度 。Padding 后 束 可 以 在 一 定 程度 上 解决 这 个 问题 。 在 实 
际 处 理 的 过 程 中 肯定 是 Padding 了 一 些 0 值 以 后 ， 表 从 Padding 后 的 新 边界 开始 扫描 。 


目的 2: 如 果 输 入 的 图 片 尺 寸 有 差异 ， 可 以 通过 Padding 来 进行 补 齐 ， 使 得 输入 的 尺寸 一 致 ， 以 免 频 每 调整 卷 积 核 和 其 他 层 
的 工作 模式 。 


Stride 束 是 步 幅 ， 在 卷 积 层 工 作 的 时 候 ，Stride 可 以 理解 为 每 次 滑动 的 单位 。 比 如 刚刚 这 个 例子 ， 我 们 用 的 束 是 Stride=1 的 
情况 一 一 每 次 只 滑动 一 个 单位 。 在 实际 工作 中 Stride=1 的 使 用 场景 很 多 ， 因 为 它 对 于 采用 的 细密 程度 保证 得 最 好 。 当 然 Stride 也 
可 以 取 别 的 值 ， 比 如 Stride=3， 那 么 扫 摘 的 时 候 束 不 是 每 次 移动 1 个 像素 ， 而 是 每 次 移动 3 个 像素 了 。 这 种 方式 直观 上 想 一 想 束 
会 名 得 比较 “粗糙 ”， 因 为 跳 过 的 像素 行列 的 信息 明显 扫 摘 的 次 数 降 低 了 。 不 过 好 处 也 显而易见 ， 融 是 因为 处 理 的 次 数 变 少 了 ， 
所 以 卷 积 层 在 扫 摘 的 时 候 工作 会 变 快 ， 这 可 能 是 唯一 的 好 处 。 在 设计 网 络 的 时 候 ，stride 取 多 少 合 适 需要 经 过 测试 ， 移 设置 
stride=1， 如 果 工 作 状 况 已 经 很 理想 了 ， 而 希望 通过 加 大 Stride 来 获得 一 些 性 能 的 提升 或 者 存储 量 的 减 小 ， 那 么 可 以 逐步 党 试 调 
整 为 Stride=2 或 其 他 值 。 一 切 都 以 实测 结果 为 准 ， 到 目前 为 止 这 个 值 究竟 应 该 设 定 为 多 少 还 没有 一 个 确切 的 有 效 的 判断 方法 。 


6.5 jt E 


池 化 层 (Pooling Layer， 或 称 池 层 ) 是 在 一 些 上 日 有 的 CNN 网 络 中 喜欢 设计 的 一 层 处 理 层 。 池 化 层 的 作用 实际 上 对 Feature 
Map 所 做 的 数据 处 理 又 进行 了 一 次 所 谓 的 池 化 处 理 。 我 们 具体 来 看 看 这 个 池 化 处 理 都 做 了 些 什 么 吧 。 


常见 的 池 化 层 处 理 有 两 种 方式 : 一 种 叫 Max Pooing， 一 种 叫 Mean Pooling (也 叫 Average Pooling) ， 顾 名 思 义 ， 一 个 
做 了 最 大 化 ， 一 个 做 了 平均 化 。 除 此 之 外 还 有 Chunk-Max Pooling, Stochastic Pooling 等 其 他 一 些 池 化 手段 。 
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Max Pooling 就 是 在 前 面 输出 过 来 的 数据 上 做 一 个 取 最 大 值 的 处 理 ， 比 如 以 stride=2 的 2x2 为 Max Pooling Filter (滤波 
器 ， 我 们 就 理解 为 跟 卷 积 类 似 的 特征 处 理 就 好 了 ) 之 后 ， 左 上 和 角 就 出 现 了 这 样 的 变化 。 临 近 的 4 个 点 取 一 个 最 大 值 成 为 Max 
Pooling 层 中 的 储存 值 。 


Mean Pooling 就 是 在 前 面 输出 过 来 的 数据 上 做 一 个 取 平 均值 的 处 理 ， 比 如 以 Stride=2 的 2x2 为 Mean Pooling Filter 之 后 ， 
左上 和 角 就 出 现 了 这 样 的 变化 。 临 近 的 4 个 点 取 平 均值 输出 到 Mean Pooling 中 保存 起 来 ， 如 图 所 示 。 


一 般 来 说 ， 池 化 层 被 认为 有 这 样 几 个 功能 。 


第 一 ， 它 又 进行 了 一 次 特征 提取 ， 所 以 肯定 是 能 够 减 小 下 一 层 数 据 的 处 理 量 的 。 


第 二 ， 由 于 这 个 特征 的 提取 ， 能 够 有 更 大 的 可 能 性 进一步 获取 更 为 抽象 的 信息 ， 从 而 防止 过 拟 合 ， 或 者 说 提高 一 定 的 泛 化 


第 三 ， 由 于 这 种 抽象 性 ， 所 以 能 够 对 输入 的 微小 变化 产生 更 大 的 容忍 ， 也 融 是 保持 其 不 变性 。 这 里 的 容忍 包括 图 形 的 少量 平 
移 、 旋 转 以 及 缩放 等 变化 。 


池 化 层 在 CNN 网 络 中 不 是 一 个 必需 的 组 件 ， 一 些 新 的 CNN 网 络 在 设计 的 时 候 也 没有 池 化 层 出 现 ， 这 一 点 请 大 家 注意 。 


6.6 典型 CNN 网 络 


我 们 在 前 面 已 经 了 解 了 很 多 有 天 卷 积 网 络 中 各 个 零件 的 概念 ， 例 如 卷 积 、 卷 积 核 、 池 化 层 ， 以 及 卷 积 网 络 中 使 用 的 激励 函 
数 ， 现 在 我 们 要 把 它们 拼接 起 来 了 。 


目前 世界 上 比较 新 的 优秀 的 网 络 由 于 计算 能 力 的 提升 而 变 得 越 来 越 复杂 ， 有 很 多 网 络 甚 至 出 现 了 “杂交 ”的 特点 一 一 也 束 
是 襄 网 络 本 身 有 很 多 层 ， 而 这 些 层 的 设计 各 异 ， 使 得 整个 网 络 不 再 体现 出 典型 的 纯粹 的 全 连接 网 络 、 卷 积 网 络 或 其 他 网 络 的 独 有 
寺 扣 。 用 现在 时 效 的 词 来 说， 这 叫 渴 搭 。 那 我 们 还 是 先 看 一 个 相对 比较 典型 的 卷 积 网 络 吧 。 


这 个 网 络 是 著名 的 Visual Geometry Group 在 2015 年 上 布 的 卷 积 网 络 。Visual Geometry Group 是 隶属 于 英国 牛津 大 学 工 
程 科学 系 的 一 个 研究 可 视 化 相关 技术 的 组 织 。 这 个 网 络 被 命名 为 VGG-16，VGG 束 是 Visual Geometry Group 的 缩写 ，16 指 的 
是 其 中 有 16 个 市 有 参数 的 网 络 层 。VGG-16 是 一 个 市 有 完整 的 卷 积 层 、 池 化 层 、 全 连接 层 的 神经 网 络 。 
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如 上 图 所 示 ， 这 就 是 一 个 VGG-16 的 结构 示意 图 ， 一 张 图 从 左 向 右 逐 层 通 过 卷 积 核 和 池 化 层 最 终 产生 分 类 输出 的 流程 概要 。 
VGG-16 是 一 个 公开 的 模型 ， 这 里 叫 “ 开 源 ”也 不 合适 ， 因 为 就 模型 来 说 ， 它 只 描述 数据 进出 处 理 的 逻辑 关系 ， 与 代码 和 语言 无 


关 。 一 张 图 片 从 左 侧 输入 进去 经 过 64 个 不 同 的 3x3 的 卷 积 核 ， 每 次 Stride=1 的 挪移 步 长 ， 生 成 了 64 个 小 尺寸 的 “图 片 ” (或 者 
应 该 称 为 Feature Map 更 为 合适 ) ， 把 这 64 个 小 尺寸 的 图 片 “ 拼 接 ” 在 一 起 ， 又 通过 64 个 3x3 的 卷 积 核 生 成 了 后 一 层 的 Feature 
Map。 然 后 经 过 一 个 Max Pooling 层 来 做 池 化 。 


然后 这 个 Max Pooling 中 的 信息 又 被 当做 一 个 “图 片 ” 同 后 输入 ， 通 过 128 个 3x 3 的 卷 积 核 进一步 提取 特征 .…... 这 样 一 层 一 
层 输入 到 最 后 。 在 这 个 过 程 中 可 以 看 到 卷 积 核 数 量 是 在 逐 步 增 多 的 ，64 个 、128 个 、256 个 、512 个 ， 而 每 个 卷 积 核 提取 过 后 的 
言 筷 所 占用 的 空间 走 来 越 小 ， 这 个 过 程 融 是 一 个 特征 提取 的 过 程 。 在 最 后 有 一 个 1000 个 节 氮 的 SOFTMAX 层 来 做 分 类 使 用 。 训 
练 的 过 程 中 同样 是 把 一 种 损失 立 数 Loss (w) 摘 述 成 为 各 个 卷 积 核 中 权重 w 的 阔 数 ， 然 后 进行 凸 优化 来 找到 极 值 点 ， 这 一 个 过 程 
与 BP 网 络 大 同 小 异 。 


除 此 之 外 ，VGG 还 友 布 过 一 个 名 叫 VGG-19 的 网 络 模型 ， 顾 名 思 义 ， 里 面 含有 19 个 市 有 参数 的 网 络 层 。 
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近年 来 在 越 来 越 多 的 网 络 模型 中 放 入 了 多 个 卷 积 层 ， 能 够 在 网 络 深度 增加 的 过 程 中 加 快 收敛 速度 并 且 可 以 让 网 络 有 更 好 的 泛 
化 特性 。 
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上 图 是 2014 年 皮 表 的 AlexNet， 也 是 大 名 易 昂 ， 前 面 的 3 个 卷 积 层 ，2 个 池 化 层 ，2 个 全 连接 层 ， 一 个 1000 个 
SOFTMAX 层 。 
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GoogleNet 也 同样 是 2014 年 友 表 的 一 个 着 名 的 网 络 ， 它 的 深度 已 经 达到 了 22 层 。 和 以 前 的 众多 网 络 不 一 样 ， 这 里 面 引 入 了 


一 种 全 新 的 结构 ， 结 构 的 名 称 叫做 Inception[1j， 有 个 同名 的 电影 被 译作 《 盗 梦 空间 》， 相 信 大 家 已 经 很 熟悉 了 。 不 知道 为 什么 
网 络 结构 的 发 明 人 会 对 这 样 虚幻 的 名 字 情 有 独 钟 。 
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在 这 个 结构 中 可 以 看 到 前 面 输入 过 来 的 向 量 会 在 这 一 层 上 展开 成 为 多 个 不 同 卷 积 核 处 理 的 并 列 结构 ， 这 样 可 以 在 一 定 程度 上 
加 大 下 一 层 输入 的 信息 量 。 其 中 3x3 和 5x5 的 卷 积 层 会 大 大 提升 分 类 识别 的 抽象 能 力 (在 一 定 程度 内 卷 积 核 越 大 这 个 特点 束 相 对 
越 明显 ) 。Inception 结 构 的 引入 大 大 增加 了 网 络 的 宽度 和 深度 ， 使 得 网 络 的 信息 容纳 能 力 变 强 ， 而 使 用 Inception 结 构 的 网 络 比 
没有 使 用 该 结构 网 络 的 性 能 要 高 2 到 3 倍 。 


ZEILSVRC!4!2014 Classification Challenge 的 比赛 中 ，GoogleNet 有 着 矣 人 的 战绩 ，top-5 错 误 率 仅 有 6.67%。1LSVRC 
2014 的 分 类 任务 有 1000 个 子 类 ，120 万 训练 图 像 ，5 万 验证 图 像 ，10 万 测试 图 像 。 


除 此 之 外 ， 每 年 在 世界 各 地 还 在 诞生 着 各 式 各 样 的 卷 积 网 络 ， 或 者 只 是 个 别 层 有 卷 积 核 参 与 计算 的 网 络 结构 。 最 新 的 相关 消 
息 请 在 搜索 引擎 上 去 查找 吧 ， 相 信 会 更 多 更 新 。 


[1] Inception 意 为 “开端 ~ “初期 o 


[2] ImageNet Large Scale Visual Recognition Competition (ILSVRC) 。 


6.7 ”图片 识别 


卷 积 神经 网 络 在 近 些 年 来 ， 对 于 大 样本 集训 | 练 场景 下 的 分 类 体现 出 越 来 越 好 的 效果 ， 也 惑 是 比较 好 的 泛 化 能 力 。 


图 片 、 音 频 、 视 频 、 大 段 的 文字 摘 述 等 这 些 模 陈 识 别 相关 的 应 用 场景 用 以 往 传 统 的 机 器 学 习 应 用 技术 进行 处 理 效果 都 不 长 理 
想 。 但 是 卷 积 神经 网 络 处 理 这 一 类 的 问题 有 得 天 独 厚 的 能 力 ， 为 什么 呢 ? 因 为 它 有 卷 积 核 这 种 东西 作为 法 室 。 
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先 训 人 类 对 于 一 张 照片 的 认 各 ， 或 者 对 于 另外 一 个 人 的 长 相 认 各。 我 们 不 会 因为 照 睛 的 尺寸 进行 了 同等 的 缩放 而 判断 这 张 昭 
片 表示 不 同 的 事物 ， 我 们 同样 也 不 会 因为 一 个 人 的 肤色 有 了 深浅 的 变化 ， 戴 不 戴 眼 镜 ， 或 友 型 有 了 细微 变化 瓯 判 断 这 是 另外 的 一 
个 人 。 为 什么 呢 ” 我 们 都 有 这 样 的 体会 ， 一 个 事物 一 旦 被 我 们 认识 后 ， 只 要 它 友 生变 化 的 程度 不 足以 改变 我 们 对 它 认 知 的 判断 ， 
那么 我 们 融 仍 旧 可 以 对 它 做 “维持 原 判 ”的 认 知 。 换 句 话 说， 这 是 一 种 对 于 细微 变化 的 免疫 作用 ， 或 者 说 是 对 细微 变化 的 不 敏感 
lEs 


卷 积 网 络 中 所 使 用 的 卷 积 核 在 对 输入 向 量 进行 特征 提取 的 过 程 是 一 个 把 高 维 向 量 映射 成 为 低 维 向 量 的 过 程 ， 也 是 一 种 有 损 压 
缩 ， 这 种 压缩 过 程 的 特点 在 我 们 了 解 了 卷 积 核 工作 原理 后 会 得 知 一 卷 积 核 提 供 了 一 种 前 一 层 输 入 向 量 (样本 或 Feature 
Map) 到 后 一 层 输 出 向 量 (Feature Map) 的 刺激 能 力 。 而 在 卷 积 核 滑动 的 过 程 中 我 们 友 现 有 一 个 特性 ， 那 就 是 个 别 向 量 值 的 
变化 对 于 刺激 的 结果 影响 是 极为 有 限 的 。 这 是 一 种 用 科学 方法 、 通 过 量化 的 手段 去 表示 敏感 程度 的 过 程 ， 而 且 这 个 量化 的 程度 是 
通过 训练 得 到 的 。 这 简直 太美 妙 了 。 
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当 一 幅 图 被 卷 积 核 扫 描 后 产生 一 张 Feature Map A， 如 果 我 们 改变 这 张 图 的 少量 像素 ， 无 论 是 改变 其 颜色 还 是 改变 线条 ， 
叉 或 者 是 涂鸦 几 点 ， 甚 至 是 进行 微小 的 角度 旋转 ， 重 新 经 过 卷 积 核 扫 描 产 生 的 Feature Map B 中 ， 这 些 向 量 值 改变 的 很 少 ， 即 
便 是 旋转 这 样 的 动作 只 要 不 是 太 和 夸张 ， 向 量 值 改 变 的 幅度 也 非 贡 有 限 。 而 在 多 层 卷 积 核 扫描 后 ， 这 种 差异 在 网 络 较 深 的 层面 已 经 
非常 不 敏感 了 。 就 好 像 被 打 过 马赛 克 的 图 片 ， 即 便 之 前 有 少许 差异 ， 但 是 在 打 过 马赛 克 后 这 些 差 异 中 区 别 不 大 的 成 分 都 会 抹 去 ， 
进而 对 后 面 层 的 网 络 产生 近似 的 刺激 。 


如 果 你 试看 将 Feature Map 中 的 内 容 进行 可 视 化 的 话 ， 你 将 会 看 到 类 似 这 样 的 一 些 光 班 。 看 上 去 是 不 是 非 钊 模糊 ”这 残 是 
我 们 刚刚 说 的 这 种 好 像 是 打 过 马赛 克 的 效果 ， 其 实 也 束 是 一 种 特征 提取 或 者 抽 缚 过 的 信息 表示 。 


这 意味 着 什么 呢 ? 至 少 可 以 得 到 以 下 这 样 几 个 观点 。 
1) 少量 的 噪声 、 率 误 对 深度 卷 积 神经 网 络 的 分 类 影响 是 非常 有 限 的 ， 它 具有 更 强 的 容错 能 力 。 


2) 由 于 卷 积 昼 经 网 络 这 样 一 种 特性 ， 也 使 得 其 泛 化 性 更 好 ， 因 为 即便 分 类 对 象 跟 训练 样本 库 的 特征 有 一 定 差 异 ， 这 种 “ 模 
糊 化 ”处 理 的 结果 会 使 得 它们 在 较 深 的 网 络 中 有 类 似 的 刺激 结果 。 


所 以 ， 从 这 种 原理 分 析 上 来 看 ， 我 们 可 以 友 现 神经 网 络 的 工作 原理 更 像 是 在 “记忆 ”，“ 记 忆 ” 一 个 “大 概 ” 的 印象 ， 而 不 
像 是 “思考 ”或 者 “推理 ”， 对 不 对 ? 你 在 训练 样本 中 直 日 地 告诉 我 的 样 例 ， 我 会 很 好 地 记 下 来 ， 并 能 够 让 它 有 一 定 的 泛 化 性 ， 
但 是 复杂 的 、 市 有 一 定 分 析 和 判断 的 能 力 ， 神 经 网 络 目 身 是 不 会 有 的 。 好 了 ， 听 了 这 么 多 理论 层面 的 分 析 ， 下 面 我 们 融 在 实践 中 
认识 一 下 CNN 的 使 用 特性 。 


6.8 ”输出 层 灌 励 冰 数 一 一 SOFTMAX 


6.8.1 SOFTMAX 


在 前 一 草 我 们 接触 过 了 一 种 激励 溺 数 ， 束 是 Sigmoid 消 数 。 这 种 消 数 的 从 义 其 实 丈 是 似 然 度 ， 在 前 面 已 经 做 过 推导 和 说 明 
了 。 这 次 我 们 介绍 一 种 新 的 激励 函数 一 3OFTMAX。 我 们 移 来 看 看 这 种 激励 负数 出 现 的 输出 层 是 什么 样子 : 


从 样子 上 来 看 这 种 方式 跟 普 通 的 全 连接 层 没有 什么 区 别 ， 但 是 激励 负数 的 形式 却 大 大 不 同 。 


首先 后 面 一 层 作为 预测 分 类 的 输出 节点 ， 每 一 个 节点 束 代 表 一 个 分 类 ， 那 么 这 7 个 节操 束 最 多 能 够 表示 7 个 分 类 的 模型 。 任 
何 一 个 节点 的 激励 函数 都 是 
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HRE DRA Mavxre, mziwx+b;, Baten — T £x LET RRE mh FAALE. AER 
这 一 层 有 这 样 一 个 特性 ， 那 融 是 
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在 每 个 节操 上 输出 的 值 都 是 小 于 等 于 1 的 ， 是 它 从 属于 这 个 分 类 的 概率 。 在 训练 的 时 候 方 法 大 家 可 能 也 已 经 猜 到 了 ， 丈 是 拿 天 一 
个 训练 样本 和 给 分 类 标签 一 个 下 标 序 号 ， 然 后 对 应 的 节点 给 1， 其 他 给 0。 举 个 例子 ， 如 果 我 有 7 张 不 同 的 图 片 ， 分 别 代表 飞机 、 
汽车 、 轮 船 、 猫 、 狗 、 鸟 、 太 阳 。 那 么 按照 顺序 ， 这 些 图 片 分 别 应 该 被 标记 为 


KHNL: 


p, 
NW 
cO cc oc — o 
c 
CE 
OA 


o 


训练 的 时 候 依 次 把 图 片 和 其 对 应 的 向 量 标签 放 入 网 络 训练 束 可 以 了 。 


而 一 张 待 分 类 的 图 片 输出 的 时 候 其 实 会 产生 类 似 这 样 一 个 形式 : 


= = oo g 


太阳 : 


0.005 
0.005 
0.030 
0.620 
0.101 
0.020 
0.219. 


不 要 哆 得 奇怪 ， 这 束 是 我 们 刚才 说 的 那 种 情况 ， 每 个 维度 束 是 这 个 样本 所 对 应 类 别 的 概率 解释 ， 届 时 可 以 选择 输出 值 最 大 的 
那个 束 可 以 了 ， 意 为 该 图 片 属于 这 种 分 类 的 可 能 性 最 大 。 是 不 是 从 意义 上 也 很 好 理解 呢 ? 


这 种 激励 函数 通常 用 在 神经 网 络 的 最 后 一 层 作 为 分 类 器 的 输出 ， 有 7 个 书 点 丈 可 以 做 7 个 不 同样 本 类 别 的 判断 ， 有 1000 个 书 
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的 残 差 应 该 怎么 定义 呢 ? 我 们 继续 往 下 看 。 
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杂乱 程度 或 者 意外 程度 的 量化 拍 述 。 


我 们 先 给 公式 吧 : 


H(x)=-Y p(x, og, P(x), 其 中 (i21,2,-, n) 


i=] 
解释 : 前 面 的 x 我 们 当成 一 个 向 量 吧 ， 残 是 若干 个 xi 把 每 个 可 能 项 产生 的 概率 乘 以 该 可 能 性 的 信息 量 ,， 然 后 各 项 做 加 和 |。 


也 许 有 的 朋友 在 其 他 资料 上 会 看 到 这 里 的 log 是 取 以 10 为 底 的 对 数 lg， 或 者 目 然 剃 数 e 为 换 的 In 目 然 对 数 。 这 里 强调 一 下 ， 人 在 
我 们 应 用 的 过 程 中 用 任何 一 个 值 做 底 都 是 可 以 的 ,但 是 注 章 在 某 一 次 应 用 的 整个 过 程 中 ， 参 与 本 次 应 用 的 所 有 信息 粹 都 必须 采用 
同一 个 搬 ， 不 能 将 不 同 底 的 对 数 求 出 的 精 再 做 加 和 或 者 比较 ， 这 样 完全 没有 意义 〈 融 好 像 3 米 和 2 英尺 ， 虽 然 都 是 长 度 单位 ， 但 
是 3 米 +2 英 尺 既得 不 到 5 米 也 得 不 到 5 严 尺 ) 。 


1. 示 例 1: 2 选 1 "一边倒 ” 


为 了 识 得 清楚 还 是 具体 举例 吧 ， 比 如 中 国 乒 兵 球 队 和 巴西 乒乓 球 队 比赛 。 


03 
假设 中 国 乒乓 球 队 和 巴西 乒乓 球 队 历 史 交手 共 64 次 ， 其 中 中 国 队 获胜 63 次 ，64 是 赛 前 大 家 普遍 认可 的 中 国 队 获胜 的 概率 


一 一 这 个 是 先 验 概率 。 那 么 这 次 “中 国 队 获胜 ”这 个 消息 的 信息 量 有 多 大 呢 ? 


o 63 
H ( Xi) =—log, — = 0.023 
64 


“巴西 队 获 胜 ” 的 信息 量 有 多 大 呢 ? 


H ( Xi) =-—lo — 6 
52 64 
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0.023 x — = + 6x 一 一 l = 0.1164 
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哦 。 


2. 示 例 2: 2 选 1“ 差 不 多 ” 


l 
再 看 一 个 两 者 势均力敌 的 情况 ， 假 设 德国 乒乓 球 队 和 法 国 乒乓 球 队 比赛 ， 双 方 历史 交手 64 次 ， 交 手 胜 负 为 32: 32， 那 么 ?是 


赛 前 大 家 普遍 认可 的 德国 队 的 获胜 概率 ， 同 时 也 是 法 国 队 的 获胜 概率 。 那 么 算 算 结果 的 信息 炳 : 


] 
H | Xi)=—-log, —-1 
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| 
H (Xi) - -log, - = 


德国 队 获 胜 的 信息 量 : 


法 国 队 获胜 的 信息 量 : 


NERA: 


xXx — = 


x — 
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3. 示 例 3: 3211 "AAS" 


那 好 ， 最 后 我 们 再 看 一 下 ， 如 果 在 足球 世界 杯 决赛 阶段 ， 就 是 假设 32 支 球 队 获得 冠军 等 概率 的 情况 下 做 一 个 信息 灼 计 


m 


EA 


队伍 1 获胜 的 信息 量 : 


] 
一 一 ]o — 5 
52. - 12 
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H ( Xi)=-log,—=5 
52737 


EA 


队伍 2 获胜 的 信息 量 : 


EA 


队伍 32 获 胜 的 信息 量 : 


l 


H(Xi\=-log. —=5 
"n 


Wu RANI (一 共 32 个 ) : 
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32 32 32 


tmx “3261 Aso, FBS" RUNS. 
4. 示 例 4: 32 先 1“ 一边倒 
我 们 再 试看 求 一 下 这 种 情况 : 
1% 


其 中 队伍 1 获胜 的 概率 为 99%， 而 其 他 31 支 队伍 每 一 支队 伍 的 获胜 概率 都 为 31 的 情况 下 ， 比 赛 结果 的 信息 炳 为 多 少 。 


队伍 1 获胜 的 信息 量 : 


H ( Xi ) =—log, 0.99 = 0.0145 


队伍 2 获胜 的 信息 量 : 


0.01 
H | Xi) = -log, 一 一 21 = 11.60 


BA R323X ER S ae : 


H (Xi) =—log, == =11.60 


、 l 0.01 
WSR (后面 一 共 31 个 T 


x11.60). 


0.99x 0.0145 11.60 x 


从 上 面 这 4 个 例子 可 以 看 出 来 ， 每 次 比赛 这 个 事件 都 会 产生 一 个 结果 消息 ， 这 个 消息 其 实 是 有 限 个 的 枚 举 值 。 融 说 中 国 乒 兵 
球 队 和 巴西 乒乓 球 队 比 赛 吧 ， 要 么 中 国 队 胜 利 ， 要 么 巴西 队 胜利 。 然 而 这 两 种 情况 显然 乞 验 概率 是 不 一 样 的 ， 也 残 是 况 根 据 历史 
以 往 的 经 验 ， 这 两 种 信息 产生 的 可 能 性 是 不 同 的 ， 对 体育 新 闻 熟 悉 的 朋友 应 该 很 快 束 能 知道 ， 中 国 队 获胜 的 可 能 性 要 远大 于 巴西 
队 。 而 具体 这 个 概率 是 多 少 一般 则 是 由 统计 得 出 的 ， 进 而 生成 一 个 先 验 概率 。 当 然 了 ， 统 计 的 周期 恐怕 是 因 人 和 场合 而 异 ， 但 辟 
归 会 得 到 各 目 获 胜 的 一 个 值 ， 也 就 是 中 国 队 获胜 的 概率 和 巴西 队 获 胜 的 概率 。 这 个 时 候 册 代入 公式 束 能 得 到 关于 这 次 比赛 结果 信 
息 的 信息 粹 了 。 从 我 们 刚才 看 到 的 这 4 个 例子 来 看 的 话 会 有 这 种 感觉 : 消息 产生 的 种 类 越 多 ， 概 率 越 均等 则 信息 炳 就 越 大 ; e 
之 ,消息 产生 的 种 类 越 单一 ， 概 率 产 生 越 偏向 其 中 某 一 个 消息 ， 那 么 粹 值 束 越 小 。 最 极端 的 情况 当然 束 是 只 有 一 种 消息 ， 而 且 概 
率 100% 的 情况 ， 这 种 情况 粹 为 0， 大 家 自己 也 可 以 在 脑子 里 过 一 下 ， 究 竟 什 么 样 的 消息 系统 会 产生 炳 为 0 的 情况 。 


如 果 信 息 粹 的 概念 理解 没有 问题 的 话 ， 那 么 交叉 灼 概念 也 束 会 好 理解 一 些 了 ， 先 给 表达 式 。 


] Hn 
Loss —— 9» v. (In l- v. Iiní(l—-q- 
oss = - Y (ma)+(1-y,)In(1-a) 
P(y-1|x)-a 


] 
(一 一 
]l-e- 


从 损失 函数 (INR KAA) 的 形式 上 来 看 ， 会 不 会 党 得 比较 眼熟 ? 是 的 ， 看 上 去 好 像 在 做 逻辑 回归 ， 因 为 对 于 每 一 种 分 
类 都 是 但 努 利 分 布 ， 要 么 “是 ”要 么 “不 是 ”， 当 然 对 于 它们 中 每 一 个 来 说 表达 形式 会 看 着 多 少 有 些 同 源 。 


a=o (z) 


对 于 最 后 一 层 SJOFTMAX 的 每 一 个 输出 节点 来 说 ， 都 是 上 面 这 个 样子 ， 有 多 个 x 输 入 的 向 量 ， 有 节点 上 的 w 和 矩阵 跟 它 做 内 
积 ， 加 上 偏 置 bp， 再 把 结果 通过 Sigmoid 函 数 输 出 一 个 0 到 1 之 间 的 概率 值 。 


l 
l+e~ 


l-o(z 


9igmoid 函 数 是 一 个 很 有 趣 的 函数 ， 当 把 它 对 它 的 目 变 量 z 求 导 的 时 候 会 得 到 目 身 c (z) 和 1-o (z) RR. FEST 


怪 ， 它 的 导数 束 是 这 个 结果 。 然 后 一 步 一 步 做 纯 数学 推导 : 


OLoss 3 y | l-y 
OW, n^-(o(z) l-o(z), 


J 


OLoss _ | © y | .l-y 
7 Ow. 7 之 o(z) l-o(z) 


as OLoss 1 « o (z)x, (o(z)- | | 
aw, n^ oc(z)(I-o(z)) e 


OLoss lx | 
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大 小 。 我 们 只 说 一 点 好 了 ， 请 注意 这 个 地 方 我 们 如 何 理解 : 


Loss = -LW y (Ina ) (1 - y, JIn(1 -a) 
N i=] 


在 整个 训练 进行 的 过 程 中 ， 我 们 是 把 样本 向 量 和 标签 向 量 同时 放 入 模型 的 。 在 放 入 的 时 候 自然 样本 没有 特殊 理由 的 情况 下 都 
是 会 将 期 望 的 分 类 维度 设置 成 1， 其 余 的 维度 设置 成 0， 用 这 样 的 形式 来 标记 分 类 标签 向 量 。 也 就 是 上 面 说 的 这 个 yi。 而 在 拟 合 的 
过 程 中 会 有 这 样 一 个 事实 ， 那 就 是 说 当 y 为 0 的 时 候 ， 由 于 yi In a 失效 而 (1-yi) In (1-a) 这 一 项 是 有 效 的 ， 所 以 In (1-a) 的 大 
小 就 是 损失 值 了 。 这 个 就 很 好 理解 了 ， 本 来 不 应 该 分 成 这 一 类 ， 但 是 1-a 却 成 为 了 分 作 这 一 类 的 概率 ，In (1-a) 是 负数 。 


“In( 1 一 x) 的 图 表 


x 0.00180512 y:-0.0018067 


| -4 


从 函数 y=In (1-x) 的 图 像 上 也 能 看 出 来 ，a 越 接近 1 产生 的 负 值 的 绝对 值 融 越 大 ， 也 可 以 解释 成 拟 合 所 产生 的 分 类 概率 与 实 
际 应 该 产生 的 分 类 概率 分 收 越 大 。 反 之，a 越 接近 0 则 产生 比较 小 损失 值 越 小 。 同 理 ， 当 yi 为 1 的 时 候 ， (1-yi) In (1-a) 失效 而 
yi In a 有 效 ， 此 时 产生 很 类 似 的 情况 ，a 越 接近 1 则 损失 值 越 小 ，a 越 接近 0 损失 值 越 大 。>y> 里 面 所 包括 的 内 容 加 和 一 定 是 一 个 负 


l 


数 ， 而 在 前 面 加 了 -+ 后 则 会 变 成 正 数 ， 正 数 越 大 损失 信也 就 越 大 。 


“In (x) 的 图 表 


X -0.4332792 y: UNDEFINED 


在 整个 训练 的 过 程 中 ， 实 际 在 每 个 样本 进行 拟 合 的 时 候 都 会 产生 这 样 一 个 效果 ， 那 束 是 诸如 这 样 一 对 一 对 的 目标 分 类 向 量 值 


和 和 拟 合 分 类 向 量 值 之 间 的 差 值 : 
( 1) ( 0.22) 


0| | 0.15 
0 | 和 | 0.40 
0 0.10 
(0 0.03 
| 0.12 
0 | 和 | 0.22 
0 0.07 


Ga v^ S X 


0.02. 
0.02 
和 | 0.85 
0.04 
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首先 ， 在 你 创造 的 这 个 “小 世界 ” (就 是 这 个 网 络 ) 里 ， 比 如 你 放 进 去 10000 张 图 片 做 训练 ， 分 成 4 类 ， 不 论 这 四 类 是 比较 
平均 的 还 是 某 一 类 比较 多 ， 从 统计 上 都 会 产生 一 个 信息 粹 ， 也 束 是 随便 来 一 张 图 片 即 便 不 通过 这 个 网 络 也 会 有 一 个 先 验 概率 产 
生 。 这 个 概率 就 是 基于 这 些 图 片 “ 天 然 ” 分 布 的 一 个 统计 比例 ， 这 束 和 我 们 在 不 知道 任何 其 他 前 提 的 情况 下 看 到 有 个 骨 子 扔 到 空 
中 ， 当 它 落 地 的 时 候 掷 到 1 的 概率 是 5; 或 者 在 一 个 苹果 手机 市 场 占有 率 为 70% 的 地 区 ， 随 便 在 街 上 找到 一 个 人 问 他 的 手机 是 什 
么 品牌 ， 回 答 为 芋 果 手机 的 概率 为 70% 是 完全 一 样 的 情况 。 根 据 这 种 针对 “客观 世界 ”的 统计 产生 的 分 类 的 “信息 精 ” 残 是 分 类 
EHERBUNS, MEMAR Eases Ci SEE ZERBRS, Ix SzSTB TE EFAS SCNSTRZACBSSAB Se RARE M BUNSRS 
ZE, PARHCHHAR EA ae ERSUA “MZ” AAA). WEE SIE? MAME REA LARK 
值 越 大 导数 也 融 越 大 ， 学 习 的 效率 也 残 越 局 ， 这 当然 也 是 一 个 非 单 好 的 性 质 。 通 过 训练 不 断 调整 众多 卷 积 核 中 w 的 大 小 ， 来 决定 
一 个 合适 的 特征 提取 的 量化 值 ， 这 就 是 卷 积 网 络 训 练 的 基本 原理 了 。 


5. 独 热 编码 


这 里 在 交叉 粒 的 最 后 一 个 部 分 补充 一 个 小 的 概念 说 明 ， 叫 独 热 编码 (one-hot encoding) 。 什 么 是 独 热 编 码 呢 ?就 是 一 种 
用 一 个 向 量 的 每 一 个 维 度 来 标识 一 种 性 质 有 无 的 方式 。 在 前 面 的 例子 中 我 们 已 经 看 到 了 应 用 ， 融 是 标注 分 类 的 时 候 所 使 用 的 方 
法 。 我 们 再 来 看 几 个 例子 : 


例如 ， 性 别 这 样 一 个 属性 ， 如 果 要 用 向 量 来 标识 可 以 怎么 做 呢 ? 在 有 的 模型 解释 中 可 能 会 直接 做 成 伯 努 利 分 布 的 解释， 用 1 
来 标识 男性 ，0 来 标识 女性 。 作 为 向 量 输入 的 时 候 输 入 : 


[1] 4 [0] 

这 种 方式 是 可 以 的 。 但 是 如 果 用 独 热 编 码 的 方式 融会 表示 成 : 
[1, O]fe[0, 1] 

看 出 区 别 了 吧 。 


再 举 一 个 典型 一 些 的 例子 。 假 如 在 一 个 模型 建立 中 需要 输入 几 个 不 同 的 汽车 类 别 ， 例 如 轿车 、SUV、MPV、 皮 卡 、 大 巴 、 
货车 、 其 他 这 样 几 个 类 别 。 在 这 里 用 独 热 编 码 残 更 合适 一 些 ， 那 么 这 几 种 千 辆 分 别 对 应 的 编码 残 可 以 设 定 为 : 


轿车 : [1, 0, 0, 0, 0, 0, 0] 
SUV: [0, 1, 0, 0, 0, 0, 0, ] 
MPV: [0, 0, 1, 0, 0, 0, 0] 
皮卡 : 0, 0, 0, 1, 0, 0, 0 


AG: [0, 0, 0, 0, 1, 0, 0] 


这 种 情况 下 再 使 用 0、1、2、3、4.…… 这 尝 数 字 来 标注 它们 融 不 太 合 适 了 。 因 为 这 些 数字 企 一 个 维度 上 是 有 着 大 小 关系 的 ， 
在 这 样 设 定 表示 对 象 的 过 程 中 这 种 天 系 居 强加 给 了 这 些 对 象 ， 而 这 样 一 种 关系 在 航 证 明 仓 在 之 前 是 不 应 该 这 样 直 接 赋予 对 象 的 ， 
这 样 会 干扰 模型 对 数据 认 知 的 归纳 过 程 。 而 比较 好 的 办 法 ， 则 是 把 它们 做 成 独 热 编码 的 形式 ， 使 得 它们 成 为 正 交 的 维度 。 这 种 独 
热 编码 在 深度 学 习 中 的 应 用 很 广泛 ， 大 家 可 以 注意 一 下 。 


6.9 “小 试 牛刀 一 一 震 积 网 络 做 图 片 分 类 
这 一 节 ， 我 们 来 看 一 个 用 CNN 做 图 片 分 类 的 例子 ， 是 把 CNN 应 用 于 CIFAR-10 上 的 一 个 实验 过 程 。 实 验 之 前 我 们 必须 声明 
一 点 ， 普 通 的 全 连接 BP 网 络 跑 一 下 CIFAR-10 也 是 有 比较 好 的 结果 的 ， 只 是 CNN 会 有 更 好 的 收敛 速度 和 更 高 一 些 的 精确 度 。 


这 里 说 的 CIFAR-10 是 由 Geoffrey Hinton 和 他 的 两 个 学 生 Alex Krizhevsky, Ilya Sutskever 所 收集 的 一 个 用 于 普 适 物体 识别 
的 数据 集 ， 也 叫 作 CIFAR-10 Dataset。CIFAR 是 加 拿 大 政府 牵头 投资 的 一 个 先进 科学 项 目 研究 所 ， 全 称 是 Cooperative 
Institute for Arctic Research， 项 目 主页 位 于 : https://www.cs.toronto.edu/~kriz/cifar.html。 虽 然 看 起 来 样子 非常 简陋 ， 
但 是 实验 用 的 基本 信息 一 应 俱全 。 


这 个 项 目 中 包含 了 60000 张 32x32 像 素 的 彩色 图 片 ， 拥 有 10 个 不 同类 别 的 标签 。 其 中 50000 张 是 训练 集 ， 还 有 10000 张 是 测 
试 集 ， 当 作 实 验 玩具 来 说 应 该 是 绰绰有余 了 。 包 括 前 面 我 们 提 到 的 MNIST 数 据 集 在 内 ， 它 们 都 是 由 政府 或 者 大 的 非 僵 利 组 织 提 
供出 来 供 初 学 者 学 习 或 交流 所 用 的 ， 毕 竟 市 有 高 质量 标签 的 样本 是 在 深度 学 习 中 是 成 本 最 高 的 和 东西 了 。 
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数据 集 在 主页 上 有 下 载 地 址 ， 大 家 自己 下 载 就 可 以 。 


TensorFlow 官 方 同样 提供 了 GitHub 地 址 供 大 家 下 载 CNN 做 CIFAR10 实 验 的 代码 ， 位 置 


: https:;//github.com/tensorflow/models, X4tHrte£Es3&models/tutorials/image/cifar10, 


本 书 中 附 市 的 代码 提供 了 这 样 几 个 文件 。 
- 单 GPU 版 本 cifar10_trian.py， 以 及 cifar10.py、cifar10_input.py。 
多 GPU 版 本 : cifar10_multi_gpu_trian.py。 


先 来 看 单 GPU 版 本 的 文件 cifar10 train.py: 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


44 import cifar10 


45 

46 FLAGS = tf.app.flags. FLAGS 

47 

48 tf.app.flags.DEFINE string('train dir', '/tmp/cifar10 train', 
49 """Directory where to write event logs """ 

50 """angd checkpoint") 

51 tf.app.flags.DEFINE integer('max steps', 1000000, 

52 """Number of batches to run.""") 

53 tf.app.flags.DEFINE boolean('log device placement', False, 
54 """Whether to log device placement.""") 

33 

56 

57 def train(): 

58 """Train CIFAR-10 for a number of steps.""" 


59 with tf.Graph().as default(): 
60 global step = tf.contrib.framework.get or create global step() 


61 

62 # Get images and labels for CIFAR-10. 

63 images, labels = cifarl0.distorted inputs() 
64 


65 # Build a Graph that computes the logits predictions from the 
66 # inference model. 
67 logits = cifarl0.inference (images) 


69 # Calculate loss. 
70 loss = cifarl0.loss(logits, labels) 


72 4 Build a Graph that trains the model with one batch of examples and 
73 # updates the model parameters. 
74 train op = cifarlO.train(loss, global step) 


76 class  LoggerHook (tf.train.SessionRunHook): 
77 """T,ogs loss and runtime.""" 


79 def begin(self): 
80 self. step = -1 


82 
83 
84 
85 
86 
87 
88 
89 
90 
2 
a2 
93 
94 
25 
96 
- M 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
L11 
112 
TL3 
114 
115 
116 
LI 
118 
119 
120 


def before run(self, run context): 

self. step += 1 

self. start time - time.time() 

return tf.train.SessionRunArgs(loss) # Asks for loss value. 


def after run(self, run context, run values): 


duration - time.time() - self. start time 

loss value - run values.results 

if self. step % 10 == 0: 

num examples per step - FLAGS.batch size 
examples per sec - num examples per step / duration 


sec per batch - float (duration) 


format str = ('%s: step $d, loss = $.2f ($.1f examples/sec; $.3f ' 
'sec/batch) ') 
print (format str $ (datetime.now(), self. step, loss value, 


examples per sec, sec per batch)) 


with tf.train.MonitoredTrainingSession( 

checkpoint dir=FLAGS.train dir, 
hooks-[tf.train.StopAtStepHook(last step-FLAGS.max steps), 
tf.train.NanTensorHook(loss), 

 LoggerHook()], 

config-tf .ConfigProto( 

log device placement-FLAGS.log device placement)) as mon sess: 
while not mon sess.should stop(): 

mon sess.run(train op) 


def main(argv-None): d pylint: disable-unused-argument 
cifarl0.maybe download and extract () 

if tf.gfile.Exists(FLAGS.train dir): 
tf.gfile.DeleteRecursively(FLAGS.train dir) 
tf.gfile.MakeDirs(FLAGS.train dir) 

train() 


if | name == ' main  ': 
tf.app.run() 


12047, RixlTensorFlow, 


111411647, RBJTensorFlow/&ei2oysFdmainERZA, Rtcifar10 dataset, HIBS. 


59 行 ， 使 用 默认 图 。 


60 行 ， 全 局 步 数 变量 。 


63 行 ， 获 取 训 练 数 据 和 其 对 应 的 标签 。 
67~ 74 行 ， 创 建 网 络 Op，loss Op， 训 练 Op。 


100 ~ 106 行 ， 这 里 使 用 MonitoredTrainingSession 可 以 设置 钩子 消 数 在 开始 训练 之 前 ， 每 次 运行 之 前 ， 以 及 运行 过 程 中 设 
置 回调 函数 处 理 变量 ， 输 出 信息 。 


107 ~ 108 行 ， 开 始 训练 ， 传 入 train Op 直到 FLAGS.max steps 停止 上 方 代 码 有 设置 : 
tf.train.StopAtStepHook (last stepo=FLAGS.max steps) 。 


80 行 ， 开 始 训练 之 前 设置 当前 步 数 。 
83 行 ， 每 次 运行 之 前 更 新 当前 步 数 。 
85 行 ， 运 行 一 个 step， 传 进 loss Op. 
8917, loss Op 的 返回 结果 。 

90 ~ 97 行 ， 运 行 时 每 10 个 step 输 出 信息 。 


cifar10.py X4: 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


45 

46 import cifar10 input 

47 

48 FLAGS = tf.app.flags.FLAGS 
49 


50 # Basic model parameters. 
51 tf.app.flags.DEFINE integer ('batch size', 128, 


52 """Number of images to process in a batch.""") 

53 tf.app.flags.DEFINE string('data dir', '/tmp/cifar10 data', 
54 """Path to the CIFAR-10 data directory.""") 

55 tf.app.flags.DEFINE boolean('use fp16', False, 

56 """Train the model using fp16.""") 

ST 


58 # Global constants describing the CIFAR-10 data set. 
59 IMAGE SIZE = cifarl10 input.IMAGE SIZE 
60 NUM CLASSES = cifarl10 input.NUM CLASSES 
61 NUM EXAMPLES PER EPOCH FOR TRAIN - 
cifarl0 input.NUM EXAMPLES PER EPOCH FOR TRAIN 
62 NUM EXAMPLES PER EPOCH FOR EVAL - 
cifarl10 input.NUM EXAMPLES PER EPOCH FOR EVAL 
63 
64 
65 # Constants describing the training process. 
66 MOVING AVERAGE DECAY 0.9999 d The decay to use for the moving average. 
67 NUM EPOCHS PER DECAY = 350.0 # Epochs after which learning rate decays. 
68 LEARNING RATE DECAY FACTOR = 0.1 # Learning rate decay factor. 
69 INITIAL LEARNING RATE = 0.1 # Initial learning rate. 
70 
71 # If a model is trained with multiple GPUs, prefix all Op names with tower name 


72 # to differentiate the operations. Note that this prefix is removed from the 
73 # names of the summaries when visualizing a model. 


74 TOWER NAME = 'tower' 

FE 

76 DATA URL = 'http://www.cs.toronto.edu/-kriz/cifar-10-binary.tar.gz' 
T 


79 def activation summary (x): 


95 tf.nn.zero fraction(x)) 


98 def variable on cpu(name, shape, initializer): 

99 """Helper to create a Variable stored on CPU memory. 

109 with tf.device('/cpu:0'): 

110 dtype = tf.floati16 if FLAGS.use fp16 else tf.float32 

111 var - tf.get variable(name, shape, initializer-initializer, dtype-dtype) 
112 return var 


115 def variable with weight decay(name, shape, stddev, wd): 

131 dtype = tf.floati6 if FLAGS.use fp16 else tf.float32 

132 var - variable on cpu( 

133 name, 

134 shape, 

135 tf.truncated normal initializer(stddev-stddev, dtype-dtype)) 

136 if wd is not None: 

137 weight decay = tf.multiply(tf.nn.12 loss(var), wd, name-'weight loss') 
138 tf.add to collection('losses', weight decay) 

139 return var 


142 def distorted inputs(): 

152 if not FLAGS.data dir: 

153 raise ValueError('Please supply a data dir') 

154 data dir = os.path.join(FLAGS.data dir, 'cifar-10-batches-bin') 
155 images, labels = cifar10 input.distorted inputs (data dir=data dir, 
156 batch size-FLAGS.batch size) 

157 if FLAGS.use fp16 : 

158 images - tf.cast(images, tf.float16) 

159 labels = tf.cast (labels, tf.float16) 

160 return images, labels 


163 def inputs(eval data): 

176 if not FLAGS.data dir: 

177 raise ValueError('Please supply a data dir') 

178 data dir = os.path.join(FLAGS.data dir, 'cifar-10-batches-bin') 
179 images, labels = cifar10 input.inputs(eval data-eval data, 

180 data dir-data dir, 

181 batch size-FLAGS.batch size) 

182 if FLAGS.use fp16 : 


images = tf.cast (images, tf.float16) 
labels = tf.cast(labels, tf.float16) 
return images, labels 


def inference (images) : 


# convi 

with tf.variable scope('convl1') as scope: 
kernel = variable with weight decay('weights', 
shape-[5, 5, 3, 64], 


stddev=5e-2, 

wd=0.0) 

conv = tf.nn.conv2d(images, kernel, [1, 1, 1, 1], padding='SAME') 
biases = variable on cpu('biases', [64], tf.constant initializer(0.0)) 
pre activation = tf.nn.bias add(conv, biases) 


convl = tf.nn.relu(pre activation, name=scope.name) 

activation summary (conv1) 

# pooll 

pooli = tf.nn.max pool(convi, ksize=[1, 3, 3, 1], strides=[1, 2, 2, 1], 


padding='SAME', name-'pool1') 

# normi 

norml = tf.nn.lrn(pooll, 4, bias-1.0, alpha=0.001 / 9.0, beta=0.75, 
name-'norml!) 


4 conv2 

with tf.variable scope('conv2') as scope: 
kernel - variable with weight decay('weights', 
shape-[5, 5, 64, 64], 


stddev-5e-2, 

wd=0.0) 

conv = tf.nn.conv2d(norml, kernel, [1, 1, 1, 1], padding='SAME' ) 

biases = variable on cpu('biases', [64], tf.constant initializer(0.1) ) 
pre activation = tf.nn.bias add(conv, biases) 


conv2 - tf.nn.relu(pre activation, name-scope.name) 
activation summary (conv2) 
# norm2 


norm2 = tf.nn.lrn(conv2, 4, bias-1.0, alpha=0.001 / 9.0, beta=0.75, 
name='norm2') 


# pool2 
pool2 = tf.nn.max pool(norm2, ksize-[1, 3, 3, 1], 
strides-[1, 2, 2, 1], padding-'SAME', name='pool2') 


4 local3 
with tf.variable scope('local3') as scope: 
4 Move everything into depth so we can perform a single matrix multiply. 


reshape = tf.reshape(pool2, [FLAGS.batch size, -1]) 
dim = reshape.get_shape() [1] .value 


245 weights = variable with weight decay('weights', shape=[dim, 384], 

246 stddev=0.04, wd=0.004) 

247 biases = variable on cpu('biases', [384], tf.constant initializer (0.1) ) 
248 local3 = tf.nn.relu(tf.matmul (reshape, weights) + biases, name=scope.name) 
249 activation summary (local3) 


250 

251 # local4 

252 with tf.variable scope('local4') as scope: 

253 weights - variable with weight decay('weights', shape-[384, 192], 

254 stddev=0.04, wd=0.004) 

255 biases = variable on cpu('biases', [192], tf.constant initializer (0.1) ) 
256 local4 = tf.nn.relu(tf.matmul(local3, weights) + biases, name-scope.name) 


257 activation summary (local4) 


259 d linear layer(WX + b), 

260 # We don't apply softmax here because 

261 4 tf.nn.sparse softmax cross entropy with logits accepts the unscaled logits 
262 # and performs the softmax internally for efficiency. 

263 with tf.variable scope('softmax linear') as scope: 


264 weights - variable with weight decay('weights', [192, NUM CLASSES], 
265 stddev-1 / 192.0, wdz0.0) 
266 biases - variable on cpu('biases', [NUM CLASSES], 


267 tf.constant initializer(0.0)) 
268 softmax linear - tf.add(tf.matmul(local4, weights), biases, name-scope.name) 
269 activation summary (softmax linear) 


271 return softmax linear 


274 def loss(logits, labels): 
286 # Calculate the average cross entropy loss across the batch. 
287 labels = tf.cast (labels, tf.int64) 
288 cross entropy = tf.nn.sparse softmax cross entropy with logits( 
289 labels-labels, logits-logits, name-'cross entropy per example ' ) 
290 cross entropy mean - tf.reduce mean(cross entropy, 

name-'cross entropy' ) 
291 tf.add to collection('losses', cross entropy mean) 


293 # The total loss is defined as the cross entropy loss plus all of the weight 
294 # decay terms (L2 loss). 
295 return tf.add n(tf.get collection('losses'), names'total loss') 


325 def train(total loss, global step): 


339 num batches per epoch - NUM EXAMPLES PER EPOCH FOR TRAIN / 
FLAGS.batch size 
340 decay steps - int(num batches per epoch * NUM EPOCHS PER DECAY) 


342 # Decay the learning rate exponentially based on the number of steps. 


343 lr = tf.train.exponential decay(INITIAL LEARNING RATE, 
344 global step, 

345 decay steps, 

346 LEARNING RATE DECAY FACTOR, 

347 staircase=True) 


348 tf.contrib.deprecated.scalar summary('learning rate', lr) 

349 

350 4 Generate moving averages of all losses and associated summaries. 
351 loss averages op - add loss summaries(total loss) 

352 


353 # Compute gradients. 

354 with tf.control dependencies([loss averages opl): 
355 opt = tf.train.GradientDescentOptimizer(lr) 

356 grads - opt.compute gradients(total loss) 


358 # Apply gradients. 
359 apply gradient op - opt.apply gradients(grads, global step-global step) 


370 4 Track the moving averages of all trainable variables. 
371 variable averages - tf.train.ExponentialMovingAverage( 
372 MOVING AVERAGE DECAY, global step) 


373 variables averages op - variable averages.apply(tf.trainable variables()) 


375 with tf.control dependencies([apply gradient op, variables averages opl): 
376 train op = tf.no op(name='train') 


378 return train op 


59~ 6247, CIFAR10 dataset AA, DRA, VUES TepochBSzidmz ig. 
66 ~ 69 行 ， 训 | 练 参 数 。 

74 行 ， 如 果 使 用 多 GPU 进 行 训 练 ， 就 使 用 TOWER_NAME 作 为 Op name 的 前 级 。 

76 行 ，CIFAR10 dataset 下 载 地 址 。 

98~ 112 行 ， 在 CPU 上 创建 变量 。 

109 行 ， 指 定 在 cpu: 0 上 创建 变量 。 

111 行 ， 获 取 一 个 已 经 存在 的 变量 或 者 创建 一 个 新 的 。 


115 ~ 139 行 ， 创 建 weight 变 量 并 且 保 存 weight decay。 这 里 补充 说 一 下 ，weight decay 也 翻译 成 权 值 衰 减 。 这 是 一 种 防 
止 过 拟 合 的 手段 ， 在 每 一 次 更 新 后 ， 权 值 w 会 乘 以 一 个 豪 减 系数 ， 束 是 这 个 weight decay， 通 常 是 一 个 略 小 于 1 的 数字 ， 以 压制 
w 值 的 大 小 。 关 于 为 什么 压制 会 有 比较 好 的 防止 过 拟 合 的 效果 后 面 我 们 也 会 讨论 。 


132 ~ 135 行 ， 在 CPU 上 创建 变量 。 


136 ~ 138 行 ， 根 据 Cross-Entropy L2 regularization 方 程 : 


C= -—-Xp, Ina; +(1- y, In(1-a; em» 


在 计算 Loss 的 时 候 需 要 加 上 正则 化 项 : 


这 个 地 方 突然 出 现 “正则 化 项 ”这 个 概念 相信 让 不 少 恋 者 朋友 换 不 着 头脑 一 一 天 上 挥 下 个 不 认识 的 乐 西 。 不 过 没 天 系 ， 大 
家 别 滩 张 ， 先 记 住 这 里 加 了 一 个 正则 化 项 ， 在 下 一 章 很 快 我 们 融会 有 关于 正则 化 项 的 介绍 出 现 ， 它 是 用 来 防止 过 拟 合 的 一 种 工 
A, 


这 里 137 行 就 是 计算 上 面 的 L2 Regularization，138 行 把 计算 出 来 的 数值 保存 到 collection 里 ， 相 当 于 值 append 到 列表 的 结 
Fé. 


142 ~ 160 行 ， 获 取 训 练 数据 和 其 对 应 的 标签 ， 多 GPU 用 ， 分 配 到 多 个 GPU 上 。 
163~ 185 行 ， 获 取 训 练 数据 和 其 对 应 的 标签 ， 单 GPU 用 .。 

188 ~ 271 行 创建 训练 CIFAR10 的 网 络 模型 。 

20347, conv1/Variable/read: 0。 

204 ~ 207 行 创建 变 量 过 滤器 (filter) 。 

208 行 ， 创 建 2-D 卷 积 层 Op。 

209 行 ， 创 建 变量 偏向 ， 在 cpu 上 。 

210 行 ， 添 加 偏 置 。 


21147, WAAL. 


21547, ith{t1. 

217 行 ， 归 一 化 1。 

241 ~ 249 行 ， 全 连接 层 3。 

243 行 ， 把 batch 上 的 每 条 数据 平 铺 成 1-D， 因 为 要 做 全 连接 。 


244 行 ， 随 便 获 取 batch 上 的 一 条 数据 的 维度 ， 其 他 全 部 一 样 。 


SN 


274~ 295 行 ， 计 算 Loss， 然 后 把 Loss 添 加 到 collection ， 相 当 于 把 值 append 到 列表 的 结尾 ，295 行 计算 总 损失 估计 根据 
Cross-Entropy L2, 


regularization 方 程 : 
C=—— Py Ina} +(1-y,)In(1-a7 +> w 


这 里 需要 把 所 有 loss 加 和 再 加 上 : 


325~ 378 行 ， 训 | 练 模型 。 


性 


343 ~ 347 行 ， 学 习 率 在 学 习 过 程 中 指数 下 降 ， 慢 慢 减 小 。 

354 ~ 356 行 ， 计 算 梯度 依赖 loss_ averages opptzJcit Sloss averages op 再 计算 梯度 。 
359 行 ， 把 计算 完 的 梯度 放 回 去 。 

371 ~ 373 行 ， 计 算 训 练 过 程 中 所 有 变量 的 移动 平均 值 。 

375 ~ 37647, ifStrain op 时 需要 先 计 算 apply gradient op, variables averages op, 
381 ~ 398 行 ， 下 载 数 据 ， 解 压 数据 。 


多 GPU 版 本 文件 cifar10 multi gpu train.py: 


1 # Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


49 import tensorflow as tf 
50 import cifar10 


5S1 

52 FLAGS = tf.app.flags.FLAGS 

53 

54 tf.app.flags.DEFINE string('train dir', '/tmp/cifar10 train', 
55 """Directory where to write event logs """ 

56 "Ung GBeckpDOinc. "m" ^) 

57 tf.app.flags.DEFINE integer('max steps', 1000000, 

58 """Number of batches to run.""") 

59 tf.app.flags.DEFINE integer('num gpus', 1, 

60 """How many GPUs to use.""") 

61 tf.app.flags.DEFINE boolean('log device placement', False, 
62 """Whether to log device placement.""") 

63 

64 


65 def tower loss(scope): 


74 # Get images and labels for CIFAR-10. 


75 images, labels = cifarlO0.distorted inputs () 
76 

77 # Build inference Graph. 

78 logits = cifarl0.inference(images) 

79 


80 # Build the portion of the Graph calculating the losses. Note that we will 
81 # assemble the total loss using a custom function below. 


82 = cifarlO.loss(logits, labels) 

83 

84 # Assemble all of the losses for the current tower only. 
85 losses = tf.get collection('losses', scope) 

86 

87 # Calculate the total loss for the current tower. 

88 total loss = tf.add n(losses, name-'total loss') 

89 


90 # Attach a scalar summary to all individual losses and the total loss; 

91 # do the same for the averaged version of the losses. 

92 for 1 in losses + [total loss]: 

93 4 Remove 'tower [0-9]/' from the name in case this is a multi-GPU training 
94 # session. This helps the clarity of presentation on tensorboard. 


95 loss name = re.sub('$s [0-9]*/' $ cifar10.TOWER NAME, '', l.op.name) 
96 tf.contrib.deprecated.scalar summary(loss name, 1) 

977 

98 return total loss 

99 

100 


101 def average gradients (tower grads): 

114 average grads = [] 

115 for grad_ and vars in zip(*tower grads) : 

116 # Note that each grad and vars looks like the following: 


117 
116 
119 
120 
121 
126 
TAS 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
L395 
136 
137 
LSS 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
1932 
153 
154 
15: 
155 


131 
LSG 
159 
160 
161 
162 
153 
164 


TAG 


# ((gradO gpuO, varO gpu0), ... , (grad0 gpuN, varO gpuN) ) 


grads = [] 
for g, _ in grad and vars: 
# Add O dimension to the gradients to represent the tower. 


expanded g = tf.expand dims(g, 0) 


# Append on a 'tower' dimension which we will average over below. 
grads .append (expanded g) 


# Average over the 'tower' dimension. 
grad = tf.concat (grads, 0) 
grad = tf.reduce mean(grad, 0) 


# Keep in mind that the Variables are redundant because they are shared 
# across towers. So .. we will just return the first tower's pointer to 
# the Variable. 

v = grad and vars [0] [1] 

grad_and var = (grad, v) 

average grads.append(grad and var) 

return average grads 


def train(): 

"""Train CIFAR-10 for a number of steps.""" 

with tf.Graph().as default(), tf.device('/cpu:0'): 

4 Create a variable to count the number of train() calls. This equals 
# the number of batches processed * FLAGS.num gpus. 

global step - tf.get variable( 


'global step', [l], 
initializer-tf.constant initializer(0), trainable-False) 
# Calculate the learning rate schedule. 


num batches per epoch = (cifarl0.NUM EXAMPLES PER EPOCH FOR TRAIN / 
FLAGS.batch size) 
decay steps = int (num batches per epoch * cifar10.NUM EPOCHS PER DECAY) 


4 Decay the learning rate exponentially based on the number of steps. 
lr = tf.train.exponential decay(cifarl10.1NITIAL LEARNING RATE, 

global step, 

decay steps, 


CifarlO.LEARNING RATE DECAY FACTOR, 
staircase=True) 


# Create an optimizer that performs gradient descent. 
opt = tf.train.GradientDescentOptimizer (lr) 


# Calculate the gradients for each model tower. 
tower grads = [] 


Ffar 4 In wvwranna (BTANC niim amia). 
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166 with tf.device('/gpu:$d' % i): 

167 with tf.name scope('$s $d' $ (cifarl10.TOWER NAME, i)) as scope: 

168 d Calculate the loss for one tower of the CIFAR model. This function 
169 # constructs the entire CIFAR model but shares the variables across 
170 d all towers. 


171 loss = tower loss (scope) 

172 

173 # Reuse variables for the next tower. 

174 tf.get variable scope().reuse variables() 
有 


176 # Retain the summaries from the final tower. 

177 summaries = tf.get collection(tf.GraphKeys.SUMMARIES, scope) 

178 

179 d Calculate the gradients for the batch of data on this CIFAR tower. 
180 grads = opt.compute gradients (loss) 

181 

182 # Keep track of the gradients across all towers. 

183 tower grads.append(grads) 

184 

185 # We must calculate the mean of each gradient. Note that this is the 
186 # synchronization point across all towers. 

187 grads - average gradients(tower grads) 

188 

189 4 Add a summary to track the learning rate. 

190 summaries.append(tf.contrib.deprecated.scalar summary('learning rate', lr)) 
L91 

192 # Add histograms for gradients. 

193 for grad, var in grads: 

194 if grad is not None: 

195 summaries.append ( 

196 tf.contrib.deprecated.histogram summary(var.op.name + '/gradients', 
197 grad) ) 

198 

199 # Apply the gradients to adjust the shared variables. 

200 apply gradient op = opt.apply gradients (grads, global step=global step) 
201 

202 # Add histograms for trainable variables. 

203 for var in tf.trainable variables(): 

204 summaries. append ( 

205 tf.contrib.deprecated.histogram summary (Var .op .Dame ， var) ) 

206 

207 # Track the moving averages of all trainable variables. 


208 variable averages = tf.train.ExponentialMovingAverage ( 

209 cifarl10.MOVING AVERAGE DECAY, global step) 

210 variables averages op = variable averages.apply(tf.trainable variables () ) 
ALl 

212 # Group all updates to into a single train op. 

213 train op = tf.group(apply gradient op, variables averages op) 


214 
ALO 
216 
217 
215 
219 
220 
22 
222 
223 
224 
220 
226 
221 
228 
229 
230 
231 
PEP 
233 
234 
235 
246 
234 
238 
239 
240 
241 
242 
243 
244 
245 
246 
247 
248 
249 
250 
294 
252 
253 
254 
299 
256 
2-4 
258 


# Create a saver. 
saver - tf.train.Saver(tf.global variables()) 


4 Build the summary operation from the last tower summaries. 
summary op - tf.contrib.deprecated.merge summary (summaries) 


4 Build an initialization operation to run below. 
init - tf.global variables initializer() 


# Start running operations on the Graph. allow soft placement must be 

4 set to True to build towers on GPU, as some of the ops do not have GPU 
4 implementations. 

sess = tf.Session(config-tf.ConfigProto( 

allow soft placement-True, 

log device placement-FLAGS.log device placement)) 

sess.run(init) 


# Start the queue runners. 
tf.train.start queue runners(sess-sess) 


summary writer = tf.summary.FileWriter(FLAGS.train dir, sess.graph) 


for step in xrange(FLAGS.max steps): 


start time - time.time() 

_, loss value = sess.run([train op, loss]) 

duration - time.time() - start time 

assert not np.isnan(loss value), 'Model diverged with loss - NaN' 
if step $ 10 == 0: 

num examples per step - FLAGS.batch size * FLAGS.num gpus 


examples per sec - num examples per step / duration 
sec per batch - duration / FLAGS.num gpus 


format str = ('%s: step $d, loss = $.2f ($.1f examples/sec; $.3f ' 
'sec/batch) ') 

print (format str $ (datetime.now(), step, loss value, 
examples per sec, sec per batch) ) 


if step $ 100 == 0: 
summary str - sess.run(summary op) 


summary writer.add summary (summary str, step) 


# Save the model checkpoint periodically. 


259 if step $ 1000 == 0 or (step + 1) == FLAGS.max steps: 
260 checkpoint path = os.path.join(FLAGS.train dir, 'model.ckpt') 
261 saver.save(sess, checkpoint path, global step-step) 
262 

263 

264 def main(argv-None): # pylint: disable-unused-argument 
265 cifarl0.maybe download and extract () 

266 if tf.gfile.Exists(FLAGS.train dir): 

267 tf.gfile.DeleteRecursively(FLAGS.train dir) 

268 tf.gfile.MakeDirs(FLAGS.train dir) 

269 train() 

270 

271 

272 if name == ' main  ': 

273: DLapD.runt) 


27347, JaaTensorFlow, 

26 ~ 269 行 ， 局 动 TensorFlow 后 首先 调用 main 国 数 ， 下 载 CIFAR-10 dataset， 创 建 目 录 。 
141 行 ， 使 用 默认 图 。 

144 ~ 146 行 ， 全 局 步 数 变量 。 

149 ~ 150 行 ， 计 算 每 个 epoch 需 要 多 少 个 batch。 

161 行 ， 使 用 随机 梯度 下 降 优 化 算法 。 


164 ~ 184 行 ， 把 一 个 batch 训 练 数 据 分 配 到 多 个 GPU 上 ， 每 个 GPU 上 的 网 络 都 完全 一 样 ， 叫 做 一 个 tower， 初 始 参数 w 和 b 
也 是 一 样 的 ， 做 feedforward， 计 算 Loss 和 梯度 。 


187 行 ，GPU 上 的 每 个 tower 计 算 完毕 以 后 ， 把 梯度 保存 下 来 ， 放 回 cpu: 0 上 计算 平均 梯度 。 
200 行 ， 应 用 平均 梯度 。 
65 ~ 98 行 ， 计 算 每 个 GPU 上 的 Loss， 也 就 是 每 个 tower 的 Loss， 计 算 方 法 和 单 GPU 一 样 。 


101 ~ 136 行 ， 计 算 平均 梯度 ， 就 是 就 平均 值 。 


gradients 


运行 方式 是 分 别 执行 以 下 代码 : 


python cifar10 trian.py 
python cifar10 multi gpu trian.py 
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6.10 小结 


卷 积 伸 经 网 络 最 重要 的 核心 部 分 束 是 卷 积 核 。 人 在 很 多 复杂 的 应 用 中 ， 对 于 同一 个 输入 的 向 量 由 不 同 尺 十 的 卷 积 核 扫 摘 ， 产 生 
不 同 的 特征 描述 Feature Map 输 入 到 后 端 ， 也 可 能 在 不 同 的 层 用 不 同 尺寸 的 卷 积 核 去 提取 特征 。 


郑 积 虱 经 网 络 的 特征 惑 是 有 卷 积 层 ， 进 而 市 来 的 好 处 残 是 收敛 速度 比较 快 并 且 汉 化 能 力 会 显得 比较 好 。 卷 积 核 的 优 民 特 性 使 
得 已 在 很 多 网 络 中 都 有 使 用 ， 它 可 能 会 由 于 模型 上 的 需要 仪 仪 出 现在 一 个 网 络 中 的 录 几 层 的 位 置 ， 也 可 能 会 在 一 个 模型 的 多 层 中 
出 现 ， 总 而 言 乙 应 用 起 来 还 是 非常 灵活 的 。 而 是 不 是 用 了 卷 积 核 的 网 络 都 会 被 称 作 卷 积 神经 网 络 这 个 倒是 未 必 ， 至 少 很 多 网 络 由 
于 其 中 应 用 了 许多 其 他 的 结构 而 使 得 网 络 体现 出 来 很 多 更 为 独特 的 特性 的 时 候 ， 命 名 时 会 更 倾向 使 用 标新立异 的 方式 ， 后 面 我们 
看 看 深度 残 差 网 络 融 知 道 了 。 


在 看 完了 BP 网 络 和 CNN 网 络 在 TensorFlow 中 的 实现 程序 后 你 可 能 会 友 现 和 你 以 前 见 过 的 Python 程序 有 那么 一 丁点 不 一 
样 。 因 为 TensorFlow 有 它 自 己 的 框架 和 体系 ， 会 用 它 自己 更 适 配 的 方式 来 表达 描述 过 程 ， 希 望 大 家 在 这 个 过 程 中 好 好 体会 它 的 


第 7 章 ”综合 问题 


拥有 极 高 VC 维 的 神经 网 络 的 诞生 给 机 器 学 习 界 注入 了 一 股 靖 流 ， 尤 其 是 在 大 规模 计算 机 并 行 计算 能 力 与 日 俱 增 的 时 代 。 
绕 着 深度 学 习 所 做 的 研究 现在 在 国内 外 很 多 大 学 都 在 进行 ， 当 然 了 ， 做 得 最 好 的 还 是 像 CMU ( 卡 内 基 梅 隆 大 学 ) 、MIT (RS 
理工 学 院 ) 、 普 林 斯 顿 大 学 等 这 些 世界 顶级 的 大 学 。 最 前 治 、 最 尖端 的 基础 问题 研究 还 是 要 看 这 些 大 学 的 顶级 实验 军 的 教授 和 博 
士 们 发 表 的 论文 ,或 者 谷歌 、 微 软 等 这 些 世界 顶级 人 工 智 能 公司 的 研究 宇 友 表 的 相关 论文 或 著作 。 而 对 于 一 些 他 们 早已 研讨 过 的 
问题 ， 那 些 已 经 成 为 深度 学 习 入 门 中 需要 注意 的 问题 ， 则 需要 我 们 逐一 强调 一 下 。 本 章 将 介绍 这 些 基 础 问题 。 


7.1 并 行 计算 


并 行 计算 是 用 来 加 快 深度 神经 网 络 训练 的 最 直接 的 方式 了 。 对 于 深度 神经 网 络 来 说 ， 我 们 最 终 需 要 得 到 的 东西 是 一 个 网 络 拓 
扑 结构 和 各 个 节点 上 输入 的 权 值 矩阵 。 


以 一 个 小 规模 的 全 连接 网 络 为 例 ， 假 设 有 5 层 ， 每 层 10 个 书 点 ， 输 入 同 量 有 1000 维 ,最 后 一 层 是 SOFTMAX 层 。 那 么 这 个 网 
络 中 一 共有 多 少 个 权 值 需要 被 训练 出 来 呢 ? 


第 一 层 束 是 10x1000 个 ， 第 二 层 、 第 三 层 、 第 四 层 都 是 10x10， 第 五 层 是 10x 1 个 ， 这 样 加 起 来 一 共 是 
10000+300+10=10310 个 维度 。 假 设 在 训练 的 过 程 中 平均 每 次 在 一 个 维度 上 挪动 0.001 来 做 一 次 迭代 ， 挪 动 2000 次 恰好 挪动 
到 “合适 ”的 位 置 ， 那 么 需要 挪动 多 少 次 呢 ? 用 乘法 算 一 下 应 该 是 20620000 次 。 在 一 个 独立 的 进程 中 ， 一 次 挪动 和 下 一 次 挪动 


之 间 是 捉 行 的 ， 也 殊 是 说 需要 一 共 等 待 2062 万 次 的 挪动 时 间 才 能 完成 这 个 训练 ， 而 且 这 个 挪动 毫 无 疑问 是 包含 导数 计算 的 时 间 
| 
的 。 可 是 如 果 有 10 个 CPU 内 核 ， 那 就 可 以 有 10 个 进程 来 处 理 这 个 过 程 ， 每 个 CPU 内 核 处 理 其 中 10 的 权 值 更 新 即 可 ， 这 个 迭代 的 


速度 理论 上 可 以 提高 10 倍 。 


CPU(Multiple Cores) GPU(Hundreds of Cores) 


Device Memory 


System Memory 


FEER ER, KEANE, TERESA POTS eI PRAY: «= “用 CPU 运算 
简直 束 是 折磨 ， 训 练 一 次 从 理论 上 需要 一 年 时 | 间 ， 也 就 是 说 一 年 后 才 知 道 结 果 究 竟 怎 么 样 ”。 确 实 , 使 用 CPU 计 算 ， 即 便 是 用 
32 核 心 或 者 48 核 心 的 高 配 工作 站 也 会 显得 捉襟见肘 。 在 平时 我 们 做 练习 ， 用 CPU 熟悉 TensorFlow 的 过 程 一 般 是 无 所 谓 的 ， 然 而 
在 工业 上 如 果 做 项 目 用 CPU 就 显得 有 点 太 业 余 了 。 


现在 业界 比较 成 熟 的 是 使 用 英 伟 达 (NVIDIA) 提供 的 解决 方案 ， 一 种 在 显卡 GPU 中 使 用 的 并 行 计算 单元 一 一 
CUDA (Compute Unified Device Architecture) 。 在 一 块 带 有 CUDA 功 能 的 显卡 中 ， 带 有 数 以 和 干 计 的 CUDA 内 核 (相当 于 
CPU 内 核 ) ， 见 下 表 : 


型 号 CUDA 核心 数 (个 ) 显存 大 小 (GB ) 


一 般 来 说 ，CUDA 核 心 数 量 越 多 ， 其 并 行 计算 能 力 越 强 ， 同 等 情况 下 训练 速度 越 快 。 而 显存 越 大 的 显卡 对 于 训练 大 样本 集 的 
数据 越 有 好 处 ， 因 为 在 训练 的 时 候 样 本 数据 是 需要 拷贝 到 显存 当中 去 的 ， 如 果 你 的 样本 集 很 大 的 话 会 直接 撑 爆 显存 导致 无 汉 训 | 
练 。 当 然 ， 除 了 这 些 指标 以 外 还 需要 参考 显存 位 营 、GPU 主 频 等 影响 运算 速度 的 因素 。 


CUDA 作 为 英 伟 达 公 司 的 平台 级 产品 架构 ， 它 有 丰富 的 开发 文档 ， 支 持 复 杂 的 并 行 计 算 编 程 。 不 过 对 于 我 们 这 些 应 用 层面 的 
TensorFlow 使 用 者 来 说 ， 这 些 东西 大 可 不 必 去 看 ， 因 为 在 底层 的 驱动 层面 不 论 是 TensorFlow、Caffe、Torch 还 是 其 他 的 框架 
都 为 我 们 提供 了 几乎 是 透明 化 的 解决 方案 ， 只 需要 在 程序 中 调用 API 的 时 候 做 少量 修改 就 可 以 使 用 GPU 的 计算 资源 了 ， 非 常 方 


便 。 我 们 在 本 书 中 也 给 了 几 个 不 同 的 例子 来 说 明 。 


A NVIDIA. 


驱动 程序 ， 体验 区 > BRAS 


NVIDIA Home > 产品 > 数据 中 心 > 为 什么 选择 TESLA 


为 什么 选择 TESLA? 


据 中 心 GPU 


请 给 我 们 发 送 电子 邮件 ， 邮 件 地 址 为 : 
电话 联系 我 们 ， 电话 号 码 为 : 1-877-NVIDIA1 (1-877-684-3421) PAPE 
工作 时 间 : EF 6 点 到 下 午 5 点 (太平 洋 时 间 )， 千 一 至 周 五 ， 节 假日 除外 


IW LEADTEK 
mae # 


NVIDIA 中 国 官方 博客 关于 NVIDIA » 


WHY CHOOSE 
TESLA? i 


FB 


如 需 了 解 当 地 的 NVIDIA® Tesla 合作 伙伴 ， 请 给 我 们 发 送 
Bf d 


邮件 ， 邮 件 地 址 为 


inspur 浪潮 
HUAWEI! 


(HIE 


Sugon 


在 多 卡 环境 下 ， 比 如 4 路 或 者 8 路 GPU 的 工作 站 (服务 器 ) 自己 不 会 做 也 没 天 系 ， 因 为 目前 在 中 国 大 陆 也 有 很 多 英 伟 达 的 认 
证 授权 企业 在 做 相关 的 工程 ， 包 括 安 六 显示 卡 、CPU、 内 存 、 风 墙 ， 甚 至 在 必要 的 情况 下 安装 液 伶 系统 也 是 可 以 的 。 可 以 前 
往 http://www.nvidia.cn/object/where-to-buy-tesla-cn.html 查 看 一 下 官方 认证 的 合作 公司 ， 并 选取 合适 的 机 构 作 为 供 货 商 。 
大 的 机 构 像 戴尔 、 惠 普 、 华 为 等 这 些 自 不 必 阅 ， 小 的 机 构 也 可 以 提供 一 些 价 廉 物美 的 零售 方案 。 


ST 


Elite BRAG TEAK ff = l = l 
< 有 效 期 至 2018 年 1 月 31 日 > 获得 英 伟 达 认 证 的 销售 专家 有 : 获得 英 伟 达 认 证 的 技术 专家 有 : 


URR 
SELA 


RAS ES ] 
SITONHOLY 
电脑 合力 


作为 企业 扩 术 人 员 或 研究 人 员 ， 我 们 应 该 把 更 多 的 精力 放 人 在 针对 业务 的 研究 和 改进 中 去 ， 纯 硬件 解决 万 案 的 工程 级 问题 还 是 
交 给 专业 的 人 去 做 好 了 ， 充 分 享受 社会 大 分 工 为 我 们 市 来 的 生产 力 提升 的 红利 。 


7.2 ”随机 梯度 下 降 


在 前 面 的 学 习 中 我 们 了 解 到 ， 不 管 是 做 绪 性 回归 的 学 习 还 是 深度 学 习 的 权 值 计算 ， 都 用 到 了 梯度 下 降 算法 (gradient 
decent) 。 在 这 种 算法 中 ， 束 是 将 待定 权 信 w 各 项 之 前 的 系数 先 算 出 来 ， 骨 沿 着 梯度 下 降 的 万 同 移动 各 个 w 的 每 个 维度 值 。 


然而 在 大 量 训 | 练 样本 存在 的 情况 下 ， 要 计算 偏 导 数 的 大 小 需要 的 计算 量 是 非常 惊人 的 。 


n n—l OL ` J OL MIA y2 Y 
KARMELE =W — rp i PA, HR BE T CRI: 
h h 
Loss = — : (Y, =) ) 


其 中 的 n 表 示 一 共有 n 个 样本 ， 在 求 偏 导数 的 过 程 中 ，n 个 样本 都 要 参与 计算 。 可 是 n 往 往 非 常 大 ， 比 如 数 万 或 者 数 百 万 ， 
个 样本 的 x 维度 也 是 数 万 到 数 百 万 不 等 ， 这 种 计算 量 需 要 花费 大 量 的 时 间 。 所 以 这 种 情况 下 就 需要 有 一 种 方式 能 够 缩短 这 种 计算 
时 间 ， 办 法 就 是 使 用 随机 梯度 下 降 算 法 (stochastic gradient decent) 。 

随机 梯度 下 降 算 法 其 实 并 没有 什么 新 奇 的 地 方 ， 它 的 理论 基础 就 是 统计 学 中 的 抽样 (sampling) 概念 。 也 就 是 说 ， 我 们 可 
不 管 它 是 图 片 还 是 语音 ,或 者 是 其 他 的 什么 数据 类 型 ,我 从 中 提取 出 一 部 分 样 


E GÆ 


以 认为 所 有 的 这 些 作为 训练 样本 的 输入 同 量 


本 来 ， 这 些 样本 中 的 特征 已 经 可 以 在 一 定 程度 上 代表 整个 完整 训练 集 的 特征 了 。 歼 像 归 纳 思 结 一 下 人 的 特征 ， 其 实 不 用 把 世界 上 
所 有 的 人 都 进行 一 志 调 查 ， 可 以 只 取 有 代表 性 的 一 部 分 样本 ， 覆 匡 所 有 的 人 种 、 年 龄 、 性 别 .…. 再 对 他 们 进行 归纳 天 可 以 了 。 这 
种 理论 同样 可 以 应 用 于 深度 学 习 中 的 训练 过 程 的 样本 选择 。 


$ XG B78, Bio GN. Mib-p^ 
G L) 特性 不 能 一 个 一 个 查 "9. 9m W 
CA 进行 归纳 就 好 了 
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现在 在 TensorFlow 里 面 我 们 可 以 指定 一 个 Batch 的 Size 来 规定 每 次 被 随机 选择 参与 归纳 的 样本 数量 。 在 本 书 的 代码 中 有 多 处 
都 写 到 了 关于 batch_size 参 数 的 赋值 问题 ， 说 的 束 是 这 个 问题 。 这 样 一 个 完整 的 训练 束 会 变 成 多 轮 (epoch) 训练 ,每 一 轮训 练 
不 再 输入 所 有 的 样本 ， 而 是 随机 抽取 其 中 的 一 部 分 作为 训练 样本 ， 数 量 由 batch_size 来 给 定 ， 这 残 是 最 大 的 区 别 。 


这 样 的 好 处 就 像 刚才 我 们 说 的 那样 ， 可 以 大 大 加 快 训练 速度 ， 而 且 完 整 的 数据 集 越 大 ， 这 个 效果 越 明 显 。 而 且 小 尺寸 的 数据 
集 也 使 得 很 多 本 来 无 法 放 进 GPU 的 训练 成 为 可 能 ， 一 次 只 拷贝 一 部 分 样本 到 GPU 当 然 压力 比 全 样本 要 小 得 多 了 ，。 


不 过 这 种 “以 偏 概 全 ”的 方案 也 是 有 代价 的 ， 那 束 是 由 于 每 次 选择 的 都 是 部 分 样本 ， 所 以 这 部 分 样本 的 特征 和 整体 样本 的 特 
征 实际 上 是 有 差别 的 。 这 个 也 好 理解 ， 就 好 比 ， 如 果 有 1000 个 小 球 ， 分 别 标记 着 1 ~ 1000 的 数字 ， 拿 出 其 中 所 有 的 小 球 并 把 数 
字 求 平均 值 那 就 是 500.5。 但 是 你 从 中 抽取 100 个 小 球 ， 再 求 平均 值 的 话 可 就 有 了 偏差 了 ， 毕 竟 这 种 抽取 的 随机 性 会 让 抽取 的 结 
果 与 真实 的 情况 有 差异 ， 极 端 情况 残 是 抽取 1 个 球 求 平均 值 。 


如 果 这 些小 球 上 所 标记 的 数字 是 一 个 以 为 中 心 ， 以 Ga 为 标准 差 的 正 态 分 布 的 实数 的 话 ， 可 能 会 让 结果 侦 郑 略 小 一 些 ， 然 而 
终究 是 有 偏 帮 的 。 所 以 这 种 情况 也 束 导 致 每 次 对 权 值 Ww 更 新 的 时 候 不 一 定 是 同 着 损失 消 数 最 优化 的 方 同 前 进 ， 可 能 会 绕 远 ， 但 忆 
体 来 说 还 是 会 同 最 优化 的 万 向 前 进 。 这 没有 什么 神秘 的 地 万 ， 其 实 束 是 用 精确 度 换 时 间 的 一 种 代 偿 万 案 ， 大 家 做 个 了 解 也 束 可 以 
了 。 人 在 目前 绝 大 部 分 的 工程 训练 中 都 会 采用 随机 梯度 下 降 算 法 ， 应 该 说 它 不 完美 ,但 是 是 性 价 比 很 好 的 一 种 方案 。 


73 ”梯度 消失 问题 


梯度 消失 问题 (vanishing gradient) 是 在 早期 的 BP 网 络 中 比较 常见 的 问题 。 这 种 问题 的 发 生 会 让 训练 很 难 进 行 下 去 ， 看 
Loss 过 早 地 不 再 下 降 ， 而 精确 度 也 过 早 地 不 再 提高 


到 的 现象 残 是 训练 不 再 收 全 


。 我 们 还 是 来 看 一 个 具体 的 例子 : 


LAE PAs AS ee AS es (应 该 说 连 “ 线 ”都 算 不 上 ) ， 这 其 中 位 于 网 络 前 部 的 w1 的 更 新 融 需 要 计算 损失 半 
数 对 w1 的 偏 导 数 ， 在 这 个 孙 数 里 ， 根 据 链 式 法 则 我 们 能 够 得 到 ， 前 面 的 这 个 神经 元 的 Ww1 的 导数 是 这 样 一 个 表达 式 : 


f) _ FOB Webs) 0z, 0x, Oz, 
Ow, OZ, Ox, OZ, OW, 


Hl 一 一 
“这 两 项 实际 上 是 在 找 Sigmoid 函 数 上 的 斜率 。sigmoid 函 数 我 们 肯定 不 陌生 了 ， 前 面 已 经 


Of, (wi,bi,w,,b,) Ox, 


其 中 我 们 可 以 发 现 © 
提 过 很 多 次 了。 


0.6 


0.6 


10 — 12 


XMARA TRAN, BERI TRI LES SIEBISERCACT ARI VT -ABSGXPSERJ LF SKE RE 
of. (w,,5,,w,,0, ) " ox, 
麻烦 了 , 如 果 & 和 其 中 的 任何 一 个 处 于 这 一 段 的 话 ， 会 使 整个 导数 的 值 也 是 接近 0 的 状态 


Te" | 村 
程 中 会 导致 网 络 前端 


导数 接近 0。 这 就 比较 


， 这 样 误 帮 在 向 前 传递 的 过 
的 w 几 乎 没什么 变化 ， 因 为 导数 乘 出 来 实在 太 小 了 ， 乘 以 一 个 和 束 更 是 微乎其微 的 一 个 值 ， 而 且 网 络 层级 越 
多 ， 赵 往 前 的 隐藏 层 这 种 情况 融 越 糟 糙 一 盖 w 变 化 葡 越 慢 ， 也 惑 是 训 ， 这 一 层 没 能 学 到 什么 东西 。 这 融 是 我 们 所 襄 的 梯度 消失 问 
题 ， 也 叫 作 梯度 弥散 问题 。 


MWAEABHAG? R (BSS 
RE, £5 228£05 09 D O\ SPHERES. 
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尝试 改进 的 思路 也 应 运 而 生 。 既 然 是 导数 小 导致 的 每 次 更 新 时 候 的 值 过 小 ， 那 么 导数 大 束 应 该 是 更 新 的 数值 比较 大 ， 速 度 比 
较 快 。 那 无 非 束 是 要 消除 这 种 在 链 式 法 则 中 友 生 的 连 乘 式 每 一 项 绝对 值 小 于 1 的 情况 。 因 为 绝对 值 小 于 1 的 情况 下 ， 层 级 越 多 束 
意味 着 越 多 的 绝对 值 小 于 1 的 数字 相 乘 ， 越 乘 越 小 ， 网 络 稍微 一 深 的 话 越 靠 前 的 层级 上 Ww 移动 的 速度 越 慢 ， 也 束 是 学 习 率 越 低 。 
也 融 是 说 在 这 个 2 层 的 网 络 中 ， 我 们 要 解决 这 样 一 个 问题 了 。 


看 一 下 这 两 个 导数 值 : 


这 里 的 c 表 示 的 是 Sigmoid 函 数 求 导 的 意思 ， 也 就 是 : 


AE: 
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= 
— 
E. 


I+e 


o(x)'=0(x)(1-o(s)) , RER oy =——4 1- 
l+e° 

那么 要 使 得 |wo'|>1 怎 么 办 呢 ， 可 以 试 试 这 样 两 种 思路 。 

万 法 1: 初始 化 一 个 合适 的 Ww。 

如 果 能 够 把 w 初 始 化 大 一 些 是 不 是 就 能 解决 这 个 问题 了 呢 ? 似乎 这 是 个 顺理成章 的 想法 。 假 设 我 们 把 w 初 始 化 成 10， 在 


(0) - 1 
Ba 


sigmoid 函 数 为 0 的 地 方 ， 导 数 的 绝对 值 是 


， 当 |w|=10 的 时 候 |wo'|=2.5。 这 个 值 确实 够 大 了 ， 但 是 大 就 一 定好 么 ， 示 


同样 是 链 式 法 则 的 连 乘 天 系 ， 原 来 是 因为 导数 大小 导致 网 络 前 新 的 w 变 化 太 慢 ， 这 么 一 改 之 后 有 反 过 来 了 ， 网 络 前 新 的 变化 率 
太 高 了 ， 一 次 的 变化 量 非常 大 。 就 使 刚 刚 这 个 例子 来 说， 如 果 有 10 层 ，10 个 2.5 相 乘 就 是 9536 左 右 。 俗 话说 “过 犹 不 及 ”， 这 就 
算是 一 个 很 小 的 n 也 能 一 下 子 从 地 下 挪 到 天 上 去 ， 这 种 现象 叫做 梯 厦 爆炸 (gradient explording) ， 也 叫 作 梯 度 膨 胀 。 况 且 w 在 
移动 的 过 程 中 也 是 一 直 在 变化 的 ， 怎 么 可 能 一 直 保证 这 种 效果 的 持续 性 呢 7 所 以 这 个 方法 没有 看 上 去 那么 芙 。 


万 法 2: ie SSSA EU AL. 


AX NABER AAD Ane EBS SUB R SSH ee Y , EGRTIReLUBESEX. ReLUERZXTEAS-BBUTR ESAE 
ERES, DEI Faee cs, CHEB aARectified Linear Units， 也 翻译 成 线性 修正 单元 激励 尔 数 ， 
简写 大 家 习惯 读 作 “ 热 重 ” 消 数 。 你 在 跟 同行 交流 的 时 候 和 直接 跟 人 家 说 “ 热 鲁 ”长 “ 热 鲁 ” 短 的 也 没有 问题 ， 不 会 有 舍得 你 在 
ARB. 


十 s x- -0.035340373 y: -0.035340373 
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这 个 函数 的 形式 为 y=max (x, 0) , XSAN KE DUBAI 425730, FAME- RREH. AEA TORY 
部 分 是 呈现 出 线性 特点 的 ， 在 小 于 0 的 时 候 则 是 一 条 直线 ， 这 个 锋利 的 计 折 提供 了 民 好 的 非 线 性 特点 。 尤 其 注意 它 在 第 一 象限 的 


这 条 直线 ， 它 的 导数 恒 为 1， 这 是 它 的 “激活 ”状态 ，x 小 于 0 的 部 分 导数 恒 为 0， 这 是 它 的 “ 非 激活 ”状态 。 所 以 它 的 优点 有 两 


其 一 ， 在 第 一 象限 中 不 会 有 了 明显 的 梯度 消失 问题 ， 因 为 导数 恒 为 1， 而 w 在 初始 化 的 时 候 也 是 有 大 有 小 ， 连 乘 的 时 候 不 会 轻 


AHIR RA RAMEE, xme MESA TS 
其 二 ， 由 于 导数 为 1， 所 以 求解 它 的 导数 要 比 求解 3igmoid 函 数 的 导数 代价 要 小 一 些 ， 这 里 况 的 代价 主要 是 时 间 代 价 。 前 面 


Loss(w+ A) — Loss(x) 


虽 们 说 了 求 导 数 要 在 消 数 的 这 个 点 上 用 ^ 的 方法 来 求 ， 这 个 计算 的 次 数 可 残 比 直接 拿 一 个 1 出 来 麻烦 多 了 ， 尤 其 是 
在 损失 函数 里 的 w 很 多 的 时 候 ， 一 次 计算 所 消耗 的 计算 资源 融 太 多 了 ， 速 度 会 变 慢 。 


因而 现在 的 工程 人 员 在 近 几 年 的 网 络 中 都 喜欢 大 量 使 用 ReLU 了 数 。 在 笔者 的 工程 经 验 中 也 是 至 少 80% 以 上 的 工程 都 是 倾向 
于 优先 使 用 ReLU 冰 数 作 为 激励 冰 数 的 。 


74 及 一 化 
归 一 化 问题 (normalization) 是 几乎 所 有 机 器 学 习 算法 在 开始 训练 之 前 都 要 考虑 的 问题 。 所 谓 的 归 一 化 问题 是 为 了 克服 这 
样 一 种 现象 所 产生 的 应 对 方法 ， 是 什么 呢 ? 我 们 看 一 个 例子 。 


要 计算 中 国人 和 日 本 人 的 平均 收入 有 多 少 ， 比 较 一 下 产 距 应 该 怎么 做 ? 从 统计 学 的 角度 来 如 ,肯定 应 该 是 在 中 国人 当中 随机 
抽取 一 定 的 人 数 ， 再 在 日 本 人 当中 抽取 一 定 的 人 数 ， 比 如 都 是 1000 人 ， 然 后 把 他 们 的 年 薪 做 一 个 平均 值 。 至 少 从 统计 学 的 角度 
来 说 ， 这 种 方式 相对 比较 有 科学 性 和 说服 力 。 

然后 你 会 友 现 计算 后 有 可 能 得 到 这 样 的 结果 。 


中 国人 平均 年 薪 : 55000, AA AAI SEF: 2600000, 


这 两 个 数字 相 卷 实在 是 大 大 了 一 相关 46 倍 多 ， 如 果 这 个 时 候 得 到 的 结论 是 日 本 人 平均 收入 是 中 国人 的 47 倍 多 未 免 太 过 欧 
唐 了 。 要 知道 这 种 统计 在 获得 样本 的 时 候 都 是 以 当地 的 货币 标准 为 计算 单位 的 ， 中 国人 的 平均 年 薪 55000 单 位 是 人 民 币 ， 日 本 人 
的 平均 年 薪 是 2600000 单 位 是 日 元 。 按 照 现 在 人 民 币 对 日 元 的 汇率 来 训 ， 大 约 1: 16.48， 这 样 换算 下 来 中 国人 的 平均 年 薪 大 约 可 
以 核算 为 90.67 万 日 元 的 样子 。 日 本 人 平均 年 薪 大 约 仪 是 中 国人 平均 年 薪 的 2.87 倍 一 这 听 起 来 残 靠 庶 多 了 。 
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作为 有 货币 汇 史 常 识 的 人 来 说 ， 换 算 过 程 肯定 是 不 可 避免 的 。 然 而 在 计算 机 系统 当中 ， 数 字 是 没有 量 纲 和 单位 的 ， 只 有 一 个 
具体 的 浮 点 数 或 者 定 所 数 。 
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同 的 影响 能 力 ， 结 果 主 要 是 会 引起 模型 对 某 些 值 过 于 敏感 或 者 不 敏感 ， 而 这 种 情况 其 实 是 我 们 不 愿 看 到 的 一 种 天 然 由 外 界 强加 给 
系统 的 “不 公平 ”的 情况 。 克 服 的 办 法 也 是 有 的 ， 那 就 是 使 用 归 一 化 这 样 一 个 操作 过 程 一 一 把 数据 的 大 小 分 布 压 缩 或 框 定 在 一 
个 比例 协调 的 范围 之 内 。 


常见 的 归 一 化 方法 有 线性 肖 数 归 一 化 (min-max scaling) ， 还 有 0 均值 标准 化 (z-score standardization) 。 目 的 都 是 为 
了 让 各 维度 的 数据 分 布 经 过 “ 拉 伸 ”投射 到 一 个 相近 的 尺度 沱 围 去 。 以 线性 函数 归 一 化 为 例 
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示 目 己 在 整个 样本 中 该 维度 所 处 的 位 置 比例 。 
数据 的 分 布 大 概 会 呈现 下 图 这 样 一 种 变化 的 效果 ， 左 边 的 这 一 幅 图 是 xy 两 个 维度 的 原始 数据 ， 中 间 一 幅 图 是 做 过 0 中 心 化 
的 ， 也 融 是 x 维 度 和 y 维 度 的 值 都 各 目 减 去 各 目的 平均 值 ， 这 样 得 到 一 堆 有 正 有 负 的 值 且 0 在 中 心 位 置 ; 最 右边 这 一 幅 图 束 是 归 一 
化 以 后 的 图 ,很 明显 数据 分 布 的 矩形 轮廓 不 再 是 一 个 狭长 的 形状 而 是 趋 近 于 正方 形 。 
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在 深度 学 习 中 也 同样 会 用 到 归 一 化 的 问题 ， 常 见 的 是 使 用 一 种 叫 Batch Normalization 的 归 一 化 过 程 ， 也 翻译 成 批 归 一 化 。 
在 整个 网 络 中 的 任何 一 层 都 可 以 加 入 批 归 一 化 过 程 ， 等 于 将 每 层 网 络 都 看 成 一 个 独立 的 分 类 模型 ， 这 样 可 以 让 网 络 尽 可 能 避免 没 
有 数据 分 布 的 不 同 所 市 来 的 烛 软 。 在 本 书 中 的 例子 里 没有 涉及 相关 的 内 容 ， 不 过 这 部 分 代码 也 很 简单 ，TensorFlow 里 残 只 需 
加 入 类 似 一 条 语句 束 可 以 了 。 
def dense batch relu(x, phase, scope): 
with tf.variable scope(scope) : 
hl = tf.contrib.layers.fully connected(x, 100, 
activation fn-None, 
scope='dense' ) 
h2 = tf.contrib.layers.batch norm(h1, 
center=True, scale=True, 
is training=phase, 
scope-'bn') 


return tf.nn.relu(h2, 'relu') 


在 工程 中 加 入 Batch Normalization 可 以 在 一 定 程度 上 避免 过 拟 合 的 发 生 ， 加 强 泛 化 能 力 。 虽 然 不 是 在 每 个 项 目 中 都 有 明显 
的 效果 ， 但 至 少 是 一 个 值得 我 们 注意 的 地 方 。 


75 “人参 效 急 始 化 日 题 
在 搭建 一 个 深度 神经 网 络 后 ， 在 开始 正式 进行 训练 之 前 ， 有 一 件 事情 是 不 得 不 做 的 ， 那 就 是 要 对 整个 网 络 中 所 有 的 待定 系数 
进行 初始 化 。 那 么 问题 来 了 ， 究 竟 应 该 把 这 些 权 值 w 赋 值 为 多 少 合适 呢 ? 


先 说 结论 吧 ， 一 种 相对 来 说 业界 比较 认可 的 说 法 是 把 整个 网 络 中 所 有 的 w 初 始 化 成 以 0 为 均值 u、 以 某 个 很 小 的 值 0 为 标准 闫 
的 正 态 分 布 的 万 式 通 常 效果 会 比较 好 。 

在 具体 初始 化 的 时 候 最 常见 的 束 是 用 以 0 为 均值 Xu、 以 1 为 方 产 0 的 分 布 来 随机 初始 化 的 ， 这 种 分 布 也 可 以 记 做 N (0, 1) . 
代码 这 么 写 束 可 以 : 


weights = tf.Variable(tf.truncated normal([3, 2], stddev=1.0), name='weights' ) 


还 有 一 种 弟 见 的 初始 化 方法 是 用 以 0 为 均值 H、 以 1 为 方差 a 的 分 布 生成 后 除 以 当前 层 的 昼 经 元 个 数 的 算术 平方 根来 获得 并 急 
始 化 。 代 码 这 么 写 


weights = tf.Variable( 
tf.truncated normal([500, 25], 
stddev-1.0 / math.sqrt(500)), 
name='weights') 


也 有 其 他 很 多 种 初始 化 方法 ， 不 过 大 多 数 都 是 局 斯 分 布 〈 正 态 分 布 ) 的 类 似 或 者 变种 的 方式 。 


天 于 应 该 如 何 初始 化 这 些 w 更 为 合适 的 讨论 在 业内 也 是 由 来 已 人 ， 也 是 属于 一 种 见仁见智 的 思路 碰撞 过 程 。 目 前 普 志 得 到 认 
可 的 丈 是 我 们 说 的 这 种 基于 高 斯 分 布 的 初始 化 方法 。 如 果 非 要 | 问 有 没有 更 深层 次 的 理论 据 导 思想 ， 应 该 说 也 是 有 的 ， 思 路 大 概 是 
这 样 的 ， 在 一 个 模型 中 对 于 输入 的 各 个 维度 的 权重 设置 相当 于 是 一 种 重视 程度 或 者 米 纳 程 度 的 表示 ， 而 在 一 个 模型 中 那些 对 判断 
结果 需要 作为 非常 重要 的 正面 因素 米 纳 的 是 少数 ， 需 要 作为 非常 重要 的 负面 因素 及 纳 的 也 是 少数 ， 而 其 他 大 部 分 输入 的 信息 可 能 
就 是 那些 比较 中 庸 的 ， 对 判断 结果 影响 都 比较 小 的 因素 和 而 这 部 分 又 最 多 。 


有 一 些 统计 学 基础 或 者 数据 认 知 素养 的 朋友 应 该 会 有 所 了 解 ， 自 然 界 的 大 部 分 数据 的 统计 分 布 都 呈现 出 高 斯 分 布 的 特点 ， 这 
确实 是 一 个 非常 神奇 而 且 有 趣 的 特点 。 简 单 说 原因 是 这 样 ， 不 论 一 个 单 体 数据 的 分 布 特点 如 何 ， 在 大 量 单 体 数据 和 加 后 的 宏观 数 
据 表 现 都 会 呈现 出 高 斯 分 布 的 特点 。 大 概 的 理解 是 这 样 的 : 这 些 单 体 数据 的 分 布 虽然 呈现 各 种 形态 的 特征 ， 但 是 在 随机 过 程 中 这 
些 分 布 彼此 肢 加 ， 同 时 出 现 极 端 样 态 的 概率 是 非常 小 的 ， 而 大 多 数 时 候 你 通过 观测 会 发 现 这 些 亚 加 的 结果 仍旧 会 使 得 它们 对 外 表 
现 出 来 的 值 是 一 个 在 单 体 中 处 于 最 “平均 ”状态 的 值 ， 而 这 个 值 被 观测 到 的 概率 最 大 。 在 高 斯 分 布 这 种 概念 进化 的 过 程 中 ， 不 仅 
仅 是 高 斯 [1， 还 有 他 之 前 的 一 代 一 代 的 数学 家 付出 过 辛勤 的 劳动 ， 例 如 棣 莫 弗 四 、 拉 普 拉 斯 中、 柯 西向 、 切 比 雪夫 P 等 一 大 批 数 


学 界 顶 级 大 师 ， 这 都 是 在 大 学 期 间 让 我 们 又 爱 又 恨 的 一 批 数 学 元 老 们 。 在 这 条 探索 的 道路 上 同时 留 下 了 很 多 宝贵 的 财富 ， 其 中 最 
著名 的 就 是 中 心 极限 定理 'oj。 中 心 极限 定理 的 内 容 就 是 用 数学 的 语言 描述 我 刚刚 说 的 那 一 堆 大 白话 一 一 任何 独立 随机 变量 和 的 
极限 分 布 为 正 态 分 布 。 


所 以 也 就 从 学 术 的 角度 解释 了 为 什么 我 们 平时 看 到 的 任何 一 种 事物 都 是 中 庸 的 比较 多 ， 极 端的 比较 少 ， 一 个 地 区 人 群 的 收入 
分 布 、 一 个 地 区 成 人 人 群 的 身高 分 布 、 一 个 城市 人 口 的 寿命 分 布 等 通常 都 是 近似 地 服从 高 斯 分 布 .….. 既 然 如 此 ， 那 么 也 有 足够 的 
理由 假设 在 一 个 模型 的 训练 过 程 中 ， 输 入 的 向 量 既然 是 没有 经 过 什么 特殊 特征 提取 的 上 自然 的 信息 ， 那 么 这 些 信息 中 应 该 也 是 会 各 
目 有 着 其 自己 的 重要 程度 。 那 么 一 个 向 量 中 的 各 个 维度 提供 的 信息 里 ,特别 具有 区 分 价值 的 东西 或 者 说 特征 是 少数 ， 而 大 部 分 信 
息 的 特征 性 不 太 明 显 ， 目 然 对 于 他 们 的 采纳 程度 也 会 呈现 出 相应 的 不 同 。 这 大 概 束 是 最 根本 的 原因 了 。 不 管 怎么 样 ， 在 笔者 经 历 
的 各 种 项 目 中 以 0 为 均值 W、 以 1 为 方 磊 9 的 分 布 生 成 后 除 以 当前 层 的 神经 元 个 数 的 算术 平方 根来 初始 化 的 情况 还 是 比较 多 的 。 


天 于 在 不 同 的 场景 中 ， 权 重 切 始 化 也 完全 可 能 有 差别 ， 背 后 也 有 着 场景 中 独特 的 理论 依据 和 基本 令 人 信服 的 实验 结果 佐证 。 
诸如 这 些 事 例 大 家 感 兴趣 束 多 去 翻阅 一 些 相 关 的 论文 吧 ， 数 量 也 不 在 少数 。 


[1] Johann Carl Friedrich Gauss (1777 年 4 月 ~1855 年 2 月 ) ， 德 国 著名 数学 家 、 物 理学 家 、 天 文学 家 、 大 地 测量 学 家 。 
[2] De Moiver,Abraham (1667 年 5 月 一 1754 年 11 月 ) ， 法 国 - 英国 数学 家 。 

[3] Pierre-Simon Laplace (1749 年 3 月 一 1827 年 3 月 ) ， 法 国 分 析 学 家 、 概 率 论 学 家 和 物理 学 家 ， 法 国 科 学 院 院 士 。 

[4] Cauchy, Augustin—Louis (1789 年 8 月 一 1857 年 5 月 ) 数学 家 、 物 理学 家 。 


[5] [lacbuytuim ApBoBH Heóonmués (1821 年 5 月 一 1894 年 12 月 ) ， 俄 罗斯 数学 家 、 力 学 家 。 
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[6] 中 心 极 限定 理 (centrallimit theorem) 是 概率 论 中 讨论 随机 变量 序列 部 分 和 的 分 布 渐 近 于 正 态 分 布 的 一 类 定理 。 


7.6 正则 化 


正则 化 (regulization) 是 在 机 器 学 习 中 一 个 常见 的 概念 ， 不 仅仅 是 在 深度 学 习 中 ， 在 传统 的 机 器 学 习 中 也 是 有 的 。 单 纯 从 
名 字 上 确实 不 太 好 理解 这 个 正则 化 到 底 要 干什么 ， 不 过 没关系 ， 它 的 意义 也 比较 简单 ， 一 听 束 能 听 明 日 。 


在 机 器 学 习 中 ， 我 们 是 通过 大 量 样 本 放 入 模型 中 训练 得 到 待定 系数 的 ， 而 不 论 是 哪 种 模型 ， 其 实 我 们 都 希望 这 种 模型 在 精确 
的 前 提 下 尽 可 能 简洁 。 请 注意 ， 这 里 说 的 精确 可 不 是 说 在 测试 集 上 精确 束 够 了 ， 是 指 其 泛 化 能 力 要 好 ， 也 就 是 说 在 验证 集 以 及 其 
他 测试 集 上 同样 要 有 好 的 表现 。 


不 知道 大 家 有 没有 注意 过 ， 我 们 在 日 常生 活 中 有 这 样 一 个 经 验 ， 那 束 是 对 于 观察 到 的 各 种 认 知 对 象 来 况 ， 描 述 共 性 的 东西 越 
抽 销 、 越 简洁 ， 其 泛 化 性 也 束 越 好 ;， 相 反 ， 越 是 精确 拉 述 个 体 的 东西 ， 通 常 “ 个 性 化 ”的 特点 束 非 常 明显 ， 越 具体 、 越 复杂 ， 泛 


LEERE. MECENA, 3. TAX, We SUL. BCH, FE, RE ARRAS, COR 
ERAN, FOS, Le ERHSIETBJZRESSUBSEER BSA 


例如 ， 我 们 在 描述 一 个 事物 (object) ， 说 这 个 东西 是 “ 方 的 。， 那 么 通常 是 指 这 个 物体 的 投影 外 形 是 有 四 条 边 组 成 ， 其 中 
两 两 平行 ， 并 且 两 两 焉 直 。“ 廊 的 ”这 个 词 的 换 述 就 非常 简洁 ， 而 摘 述 的 内 容 则 是 忽略 挥 大 小 、 材 质 、 和 重量、 颜色 等 诸多 性 状 
的 。 而 如 果 叙 述 “ 正 方形 手 由 ”这 样 一 个 词汇 ， 摘 述 的 内 容 融 变 多 了 ， 你 也 可 以 认为 参数 变 多 了 ， 而 这 个 时 候 其 实 残 有 了 约束 
性 ， 从 而 降低 了 泛 化 性 。 因 为 一 旦 你 说 “正方 形 手 帕 ”， 那 么 这 个 物体 首先 材质 应 该 是 类 似 于 棉布 、 纱 绸 、 抹 丝 一 类 的 织物 ， 其 
他 材质 显然 和 它 对 不 上 号 ， 正 方形 则 表示 性 状 的 约束 更 为 严格 ， 起 码 给 人 的 感 党 四 条 边 的 长 短 不 会 有 明显 的 不 同 。 这 些 融 是 你 加 
入 更 多 捅 述 之 后 产生 的 限制 和 泛 化 性 缩小 的 过 程 。 如 果 你 再 用 述 一 个 “了 昨天 从 淘宝 买 的 由 苏州 友 货 的 日 色 双 面 绕 正 方形 蓄 丝 手 
则 ”， 这 个 摘 述 更 为 具体 ， 当 然 参数 也 融 更 多 ， 但 是 泛 化 性 明显 是 刚才 这 几 个 语汇 中 最 低 的 一 个 ， 你 能 用 它 来 指 代 的 事物 融 最 
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刚刚 我 们 看 到 的 是 我 用 语言 搞 述 的 过 程 来 类 比 一 个 泛 化 性 与 简洁 程度 的 关系 。 而 正则 化 这 一 过 程 残 是 帮助 我 们 找到 更 为 简洁 
的 摘 述 方式 的 量化 过 程 。 移 看 我 们 对 损失 函数 的 改造 : 


C=C,+- 
1 
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损失 。 不 过 前 面 最 初 我 们 提 到 的 损失 消 数 其 实 只 有 Co 这 个 部 分 ， 而 没有 后 面 的 部 分 ， 到 了 卷 积 神经 网 络 的 实验 中 才 加 上 了 正则 
化 项 ， 而 当时 没有 具体 讲 加 上 这 个 部 分 能 够 在 一 定 程度 上 避免 过 拟 合 的 原理 ， 现 在 束 来 具体 讲 。 从 学 术 上 来 讲 ， 前 半 部 分 的 损失 
轴 数 叫 作 “经 验 风 险 ”， 后 半 部 分 的 损失 函数 (也 融 是 加 入 的 正则 化 项 的 部 分 ) 叫 作 “结构 风险 ”。 所 谓 “ 经 验 风 险 ” 残 是 指 那 
些 由 于 拟 合 结果 和 样本 标 演 乙 间 的 残 差 总 和 所 产生 的 这 种 经 验 性 差距 所 市 来 的 风险 一 一 毕竟 差距 越 大 模型 拟 合 失效 的 可 能 性 也 
束 越 大 ， 这 当然 是 风险 ， 久 拟 合 的 风险 ;， “结构 风险 ” 残 是 我 们 刚刚 提 到 的 那 种 概念 了 ， 我 们 希望 这 种 描述 能 够 简洁 来 保证 其 泛 
化 性 的 恨 好 ， 所 以 加 入 一 个 
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jT IIT RS S Me MRE AT AEB WAS CRRA Ae. PARES SS (虽然 有 的 人 资料 
上 会 用 和 做 学 习 率 的 符号 表示 ) ， 而 是 一 个 权重 一 一 也 可 以 称 为 正则 化 系数 或 惩罚 系数 ， 表 示 对 这 个 部 分 有 多 “重视 ”。 如 果 我 
们 很 重视 结构 风险 ， 或 者 说 很 不 希望 结构 风险 太 大 ， 那 我 们 融 加 大 入 ， 据 使 整个 损失 函数 器 着 权 值 w 减 小 的 方向 快速 移动 。 换 名 
话 训 ，w 的 值 越 多 、 越 大 ， 整 个 因子 的 值 融 越 大 ， 也 残 是 越 不 “简洁 ”。 


刚才 这 种 正则 化 因子 叫做 L1 正 则 化 项 ， 常 用 的 还 有 一 种 叫 市 有 L2 正 则 化 项 的 
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形式 上 非常 接近 ， 只 不 过 就 是 Ww 做 了 平方 后 才 做 的 加 和 ， 当 然 这 种 情况 下 也 就 不 存在 取 绝 对 值 的 问题 了 ， 因 为 平方 了 肯定 是 
非 负数 。 市 有 正则 项 的 损失 函数 的 导数 当然 和 以 前 只 有 经 验 风 险 项 的 损失 函数 有 所 区 别 ， 那 么 带 有 L1 正 则 项 的 导数 束 是 这 样 
AY: 
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整个 导数 除了 有 前 面 经 验 风险 对 w 求 导 贡 献 的 部 分 ， 还 有 后 面 结 构 风 险 对 w 求 导 贡 献 的 部 分 。sgn (w) 表示 取 w 的 符号 ， 


于 0 就 是 正 1， 小 于 0 就 是 -1。 带 有 L2 的 正则 项 导数 则 为 : 
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计 的 Trick。 


OW 


襄 到 Trick， 一 般 我 们 翻译 成 “ 穷 |]”、 “技巧 ”、“ 人 花招 ”之 类 ， 辟 之 让 人 感觉 那 么 不 地 道 。 但 是 在 诸如 TensorFlow、 
Caffe、Torch 等 框 染 的 实现 中 ， 有 着 众多 世界 顶级 大 神 们 的 潜心 研究 ， 在 处 理 很 多 细节 上 都 加 入 了 不 同 的 Trick 在 局 部 的 实现 上 
进行 优化 ， 从 而 改进 精度 、 计 算 速度 、 实 现 复 杂 度 等 问题 。 本 来 在 深度 学 习 工 程 中 的 基本 思路 都 来 自 于 学 术 界 的 各 种 基础 经 典 或 
者 论文 ， 但 是 百 分 百 地 跟着 论文 的 方式 去 做 实现 会 有 诸多 不 便 ， 所 以 也 束 会 取 巧 地 出 现 这 些 Trick， 而 且 很 多 情况 下 没有 一 些 
Trick 的 参与 ， 甚 至 有 的 计算 会 让 人 很 伤 脑筋 。 所 以 说 ，Trick 是 个 好 东西 ….. 思 之， 正则 化 项 的 加 入 会 帮助 模型 找到 拍 述 更 为 信 
洁 的 方式 从 而 提高 模型 的 泛 化 能 力 ， 一 定 程度 上 避免 过 拟 合 。 


最 后 我 们 从 可 视 化 的 角度 来 看 一 下 正则 化 的 实现 过 程 。 
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假设 在 一 个 模型 中 只 有 两 个 维度 w1 和 w2 作 为 待定 系数 ， 最 终 的 理想 解 在 圆心 的 位 置 ， 当 然 这 里 画 出 来 的 是 在 第 一 象限 ， 但 
是 实际 上 它 也 会 出 现在 别 的 位 置 。 由 于 初始 化 的 时 候 w1 和 w2 可 能 会 在 别 的 位 置 ， 当 然 也 会 在 二 、 三 、 四 象限 中 。 人 在 训练 的 过 程 


中 会 逐步 从 这 个 切 始 化 的 位 置 向 圆心 靠拢 。 


加 心 周 围 的 一 圈 一 圈 的 线 其 实 是 损失 消 数 等 高 线 ， 也 就 是 说 当 W1 和 w2 所 组 成 的 坐标 点 〈(w1，w2) 在 这 一 圈 上 的 任意 位 置 
都 会 产生 同样 大 小 的 损失 晃 数 ， 而 由 于 初始 化 位 置 不 确定 ， 所 以 可 能 会 出 现在 一 圈 上 的 任意 位 置 ， 那 么 显然 远离 坐标 系 圆 点 
(0, 0) BJ (w1, w2) 操 会 产生 更 大 的 结构 风险 ， 因 为 其 拥有 更 大 的 w1 和 w2 值 ， 更 为 不 简洁 。 


下 面 的 黄色 圆圈 和 正方 形 分 别 表示 由 L2 和 L1 所 产生 的 损失 值 ， 左 侧 是 L2 的 ， 右 侧 是 L1 的 ， 边 缘 的 圆圈 线 和 直线 分 别 表示 它 
们 各 目的 损失 遂 数 值 等 高 线 。 在 加 入 这 一 项 之 后 ， 损 失 由 两 部 分 产生 ， 所 以 损失 阅 数 在 收 合 的 时 候 要 兼顾 “小 ”和 “精确 ”两 个 
特性 。 经 验 损失 可 以 认为 是 “精确 ”这 个 特性 ， 会 让 解 向 着 圆圈 的 重心 收敛 ， 而 结构 损失 是 “小 ”这 个 特性 ， 会 让 和 解 向 着 圆 点 收 
敛 ， 最 后 解 会 出 现在 兼顾 两 者 都 比较 小 的 位 置 上 ， 例 如 图 中 所 示 的 w* 点 。 两 个 w 值 是 可 以 画 出 来 的 ， 如 果 整 个 空间 里 有 几 特 万 
个 w 值 多 怕 实 在 是 画 不 出 来 ， 大 家 束 赁 想象 来 摘 绘 一 下 这 样 的 场景 吧 ， 人 在 一 个 几 百 万 维 的 空间 里 w 被 正则 化 项 拉 向 圆 点 的 过 程 。 


在 一 次 模型 搭建 的 过 程 中 ， 通 常 先 不 加 入 正则 化 项 ， 先 只 用 市 有 经 验 风险 项 的 损失 遂 数 来 训练 模型 ， 当 模型 训练 结束 后 ， 再 
尝试 加 入 正则 化 项 来 进行 改进 。 这 个 入 可 以 设置 为 |、5、10、15、20..….. 这 样 的 方法 往 下 试 ， 也 可 以 用 类 似 1、100、50、 
25 (75) 这 种 二 分 法 的 万 法 去 设置 ， 去 观察 当前 加 入 的 这 个 入 值 是 不 是 有 效 地 提高 了 准确 率 Accuracy。 这 个 试探 的 过 程 是 没 办 
法 避免 的 ， 请 大 家 注意 。 


7. ”其 他 超 参 数 


超 参 数 (hyper parameter) 通常 指 的 是 那些 在 机 器 学 习 算法 训练 的 步骤 开始 之 前 设 定 的 一 些 参数 值 ， 这 些 参 数值 通常 是 没 
办 法 通过 算法 本 身 来 学 会 的 一 与 其 相对 的 残 是 在 算法 中 可 以 学 会 或 学 到 的 那些 参数 ， 例 如 权 值 w 和 含 置 b。 


步子 六 小 走 得 慢 ， 步 子 信 大 蛋 走 过 了 


an 
( BLA d) 
fal iK-Meansgizr"hRB$REAN, YRABSUEBTERIEXÉLREBABJyEIXn, SSeS IIa SNS RAE Pat 
HREM. IX eZ SERA. SARR? 当 你 在 闭 着 眼睛 从 山 合 上 面向 山谷 中 行进 寻找 低 点 的 过 
程 中 是 没 办 法 预 判 这 个 最 低 点 的 具体 位 置 的 ， 所 以 你 只 能 通过 向 前 伸 出 脚 来 挪动 自己 的 重心 ， 如 果 你 感 品 身体 重心 降低 了 那 就 说 
明 方 向 走 对 了 ， 但 是 当 走 到 谷底 附近 的 时 候 就 有 这 样 一 个 问题 了 如 果 你 的 步子 迈 得 太 大 ， 那 惑 会 迈 过 谷底 。 


而 由 于 偏 导 数 方向 改变 ， 所 以 再 次 挪动 的 时 候 会 向 着 谷底 方向 骨 挪 的 ， 只 是 由 于 这 个 步子 还 是 很 大 ， 所 以 还 是 会 远 过 谷底 。 
如 此 这 般 多 次 折返 也 还 是 到 不 了 更 低 的 谷底 位 置 ， 融 如 图 中 的 浅 色 和 荫 头 这 样 的 纠结 ， 所 以 n 是 应 该 设置 为 较 小 的 值 为 宜 。 
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在 我 过 去 的 项 目 经 验 中 ，n 取 过 0.1、0.05、0.01、0.005 等 小 值 ， 至 于 在 你 的 项 目 中 取 什 么 值 更 为 合适 则 需要 经 过 比较 来 验 
证 。 还 是 那 名 话 ， 小 一 点 比较 好 ， 虽 然 收敛 看 上 去 比较 慢 ， 但 是 容易 使 Loss 值 下 到 更 低 的 位 置 。 


7.8 不 唯一 的 模型 


在 你 兴 冲 冲 地 使 用 深度 学 习 搭 建 的 模型 进行 训练 的 时 候 ， 你 可 能 会 友 现 一 个 问题 ， 那 就 是 即便 你 的 训练 样本 都 一 样 ， 第 一 次 
训练 出 来 的 模型 和 第 二 次 训练 出 来 的 模型 (即便 是 经 历 同样 的 轮 数 ) ， 得 到 了 相近 的 损失 函数 Loss 的 值 和 准确 率 Accuracy 的 
值 ， 你 也 很 可 能 得 到 不 完全 一 样 的 模型 结构 。 


如 果 你 用 Linux 下 的 md5sum 命 令 去 处 理 这 个 模型 文件 来 得 到 一 个 MD5 值 ， 你 融会 友 现 每 次 训练 完了 的 结果 都 不 一 样 ， 也 残 
意味 着 每 次 训练 完 的 模型 都 是 不 同 的 。 
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原因 也 比较 简单 ， 因 为 训练 的 过 程 中 随机 性 的 因素 很 多 ， 几 乎 遍布 整个 训 | 练 过 程 。 


首先 是 在 随机 梯度 下 降 算法 中 使 用 的 Mini Batch， 等 于 从 众多 的 数据 中 选择 了 一 部 分 数据 用 来 训练 模型 ， 那 么 从 Loss 较 高 
的 位 置 向 哪个 方向 移动 可 就 跟 每 一 批 次 被 选 入 的 样本 特征 有 关 了 。 昌 然 我 们 知道 在 统计 学 上 这 些 样本 的 共同 特征 会 帮助 网 络 进行 
记忆 和 学 习 相 关 的 提取 技巧 ， 但 从 数学 角度 来 说 这 种 收敛 的 效率 和 方向 是 会 导致 不 同 的 。 


除 此 之 外 ， 权 值 在 网 络 初 始 化 的 时 候 也 是 随机 性 地 初始 化 的 。 在 不 同 的 训练 过 程 中 不 同 的 神经 元 的 权重 会 被 初始 化 成 不 同 的 
权重 ， 这 也 同样 会 影响 到 不 同 的 神经 元 的 收敛 万 向 。 换 句 话 说， 这 些 因素 导致 了 同样 的 训练 数据 训练 出 来 的 网 络 模型 可 能 会 不 唯 


但 是 ， 即 便 是 这 样 ， 我 们 仍旧 看 到 同样 数据 集 上 的 实验 用 同样 的 网 络 模型 每 次 训练 还 是 能 够 得 到 极为 近似 的 人 付 确 率 
Accuracy。 那 是 因为 整个 网 络 提 供 的 拓扑 结构 中 所 缠 谷 的 天 系 十 分 丰富 ， 可 以 提供 不 止 一 种 方式 达成 最 终 的 模型 能 力 一 一 所 
调 “ 条 条 大 路 通 罗 马 ”， 异 构 的 网 络 可 能 会 提供 出 来 近似 的 解 。 在 训 | 练 过 程 中 网 络 中 每 个 神经 元 的 收敛 万 同 虽 然 每 次 可 能 不 一 
致 ， 可 是 仍旧 能 够 在 迭代 中 形成 新 的 逻辑 目 洽 性 ， 并 最 终 完 成 训 纤 过 程 。 


7.9 DropOut 


DropOut 是 在 深度 学 习 训练 中 较为 常用 的 方法 ， 主 要 也 是 为 了 用 于 克服 过 拟 合 现象 。 还 记得 过 拟 合 现象 的 原因 是 什么 吗 ? 
由 于 整个 网 络 所 划 仿 的 VC 维 非 常 高 ， 所 以 导致 它 的 记忆 能 力 非常 强 ， 很 多 个 体 上 没有 泛 化 能 力 的 特征 也 会 被 它 记忆 下 来 。 这 种 
记忆 体现 出 来 就 是 网 络 中 的 w 会 记录 下 这 些 细 枝 未 节 的 特点 ， 使 得 整个 网 络 的 参数 过 多 过 大 (不 简洁 ) 。 所 以 也 就 容易 使 得 那些 
在 训练 阶段 被 网 络 记 住 的 这 些 特性 没 办 法 在 验证 集 上 通过 ， 进 而 使 我 们 看 到 损失 函数 在 训练 集 上 下 降 而 在 验证 集 上 反而 上 和 
的 “奇怪 ”现象 

DropOut 一 一 顾名思义 是 “丢弃 ”， 丢 弃 什么 呢 ? 在 一 轮训 练 阶段 丢弃 一 部 分 网 络 节点 。 比 如 可 以 在 其 中 的 某 些 层 上 临时 
关闭 -一些 节 点 ， 让 它们 不 输入 也 不 输出 ， 这 样 相当 于 整个 网 络 的 结构 发 生 了 改变 。 而 在 下 一 轮训 练 的 过 程 中 再 选择 性 地 临时 关闭 
一 些 节点 ， 原 则 上 都 是 随机 性 的 。 


这 样 一 来 ， 每 一 次 训练 其 实 相当 于 网 络 的 一 部 分 所 形成 的 一 个 子 网 络 或 者 子 模型 。 而 这 种 情况 同时 也 在 一 定 程 度 上 降低 了 
VC 维 的 数量 ， 减 小 过 拟 合 的 风险 。 
在 最 终 的 分 类 阶段 将 所 有 的 书 点 都 置 于 有 效 状态 ， 这 样 束 可 以 把 训练 中 得 到 的 所 有 的 子 网 络 “ 并 联 ” 使 用 ， 形 成 一 个 由 多 个 


VC 维 较 低 的 部 分 的 分 类 模型 所 组 成 的 完整 的 分 类 模型 。 


在 当前 的 业界 DropOut 应 用 仍然 非常 广泛 ， 在 TensorFlow 中 设置 训练 当中 的 DropOut 比 例 是 一 件 非常 容易 的 事情 ， 只 需要 
加 入 诸如 下 面 的 代码 就 可 以 了 : 


keep prob = tf.placeholder (tf .float32) 


h fcli drop = tf.nn.dropout(h fcl, keep prob) 
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7.10 人 小结 


人 们 对 于 神经 网 络 的 研究 仍旧 在 继续 ， 不 同 的 学 派 有 着 不 尽 相同 的 观点 ， 对 于 建 模 中 的 方法 和 技巧 也 是 各 有 各 的 高 招 。 在 众 
多 的 问题 及 其 解决 方案 中 ， 我 们 可 以 看 到 有 很 大 比例 都 是 为 了 处 理 过 拟 合 或 者 计算 效率 的 问题 。 这 两 个 问题 几乎 是 一 直 困扰 深度 
学 习 研 究 者 的 ， 各 位 读者 朋友 也 请 时 时 刻 刻 牢记 在 心 。 


可 以 讽 ， 对 于 神经 网 络 的 理论 和 技术 层面 的 研究 还 有 非 音 远 的 道路 要 走 ， 有 非 营 多 的 问题 需要 克服 。 以 目前 的 理论 水 平和 计 
算 能 力 想 要 蛋 拟 哪怕 是 一 个 低 智 的 人 还 差 得 相当 远 ， 不 论 是 金钱 成 本 还 是 时 间 成 本 都 使 得 这 件 事 在 现 阶段 不 太 可 能 实现 。 


有 一 忧 束 有 一 喜 ， 那 也 融 是 说 我 们 有 很 多 可 以 做 的 事情 。 与 深度 学 习 相 关 的 技术 领域 研究 和 工程 工作 起 码 应 该 是 还 有 十 几 到 
二 十 年 可 以 做 。 还 有 很 多 局 部 的 、 垩 直 的 、 小 学 围 的 应 用 可 以 落地 。 措 起 袖子 努力 干 吧 ， 别 犹 牟 。 


第 8 晶 ”循环 伸 经 网 络 


表面 我 们 已 经 接触 过 抬 传播 神经 网 络 和 卷 积 神经 网 络 ， 这 一 章 我 们 来 介绍 另 一 种 音 用 的 神经 网 络 ， 循 环 神经 网 络 


(recurrent neural networks, RNN) 。 一 听 这 名 字 柬 有 一 种 画面 油 然 而 生 ， 仿 佛 干 回 百 转 纠缠 不 清 的 感 竞 。 其 实 也 并 不 是 这 
样 的 ， 循 环 神经 网 络 与 我 们 前 面 接触 过 的 前 馈 神 经 网 络 和 卷 积 神经 网 络 最 大 的 不 同 是 有 一 些 “ 记 忆 暂 存 ” 功 能 ， 可 以 把 过 去 输入 
的 内 容 所 产生 的 远 期 影响 量化 后 与 当前 时 间 输 入 的 内 容 一 起 反应 到 了 网络 中 去 参与 训练 。 这 也 就 解决 了 很 多 原来 的 前 馈 神 经 网 络 和 
卷 积 神经 网 络 对 于 上 下 文 有 关 的 场景 处 理 具有 局 限 性 的 问题 。 


现在 业界 使 用 循环 神经 网 络 还 是 很 多 的 ， 尤 其 是 在 自然 语言 处 理 (natural language processing, NLP) 方面 应 用 很 广 
泛 。 在 接触 这 个 内 容 之 前 ， 我 们 先 补 充 介绍 一 个 模型 一 一 隐 马 尔 可 夫 模 型 ， 然 后 再 介绍 RNN 的 结构 与 算法 ， 最 后 通过 一 个 实践 
案例 讲解 RNN 的 应 用 。 


8.1 Ba np Aem) 


隐 马 尔 可 夫 模 型 (hidden markov model, HMM) 最 初 由 LE.Baum 发 表 在 20 世 纪 70 年 代 一 系列 的 统计 学 论文 中 ， 随 后 在 
语言 识别 、 自 然 语言 处 理 以 及 生物 信息 等 领域 体现 了 很 大 的 价值 。 


如 果 我 们 在 网 络 去 搜 一 下 ， 还 有 一 个 概念 叫做 “马尔 可 夫 链 ” (也 有 写成 马尔 科 夫 链 或 者 马尔 科 夫 模型 的 ， 是 一 回 事 ， 音 译 
不 同 而 已 ) 。 这 两 者 有 什么 关系 呢 ? 马尔 可 夫 链 是 一 个 数学 概念 ， 因 为 它 由 俄国 物理 学 家 兼 数学 家 安 德 烈 - 马 尔 可 

Xl! (A.A.Markov) 提出 而 得 名 。 马 尔 可 夫 链 的 核心 是 说 ， 在 给 定 当 前 知识 或 信息 的 情况 下 ， 观 察 对 象 过 去 的 历史 状态 对 于 将 
来 的 预测 来 说 预测 是 无 关 的 。 也 可 以 说 ， 在 观察 一 个 系统 变化 的 时 候 ， 它 下 一 个 状态 (第 n+1 个 状态 ) 如 何 的 概率 只 需要 观察 和 
统计 当前 状态 (第 n 个 状态 ) 即 可 以 正确 得 出 。 另 外 我 们 在 一 些 资料 上 会 看 到 贝 叶 斯 信念 网 络 的 分 类 模型 概念 。 隐 马尔 可 夫 链 和 
贝 叶 斯 信念 网 络 的 模型 思维 方式 有 些 接近 ， 区 别 在 于 ， 隐 马尔 可 夫 链 的 模型 更 简化 ， 或 者 我 们 可 以 认为 隐 马 尔 可 夫 链 就 是 贝 叶 斯 
言 念 网 络 的 一 种 特例 。 而 且 隐 马尔 科 夫 链 是 一 个 双重 的 随机 过 程 ， 不 仅 状态 转移 之 间 是 个 随机 事件 ， 状 态 和 输出 之 间 也 是 一 个 随 
机 过 程 。 


ee ee e X1 | 


一 > 状态 转移 


这 个 图 [9 画 得 还 是 比较 形象 的 ， 大 致意 思 我 们 这 样 来 理解 。 

在 一 个 完整 的 观察 过 程 中 ， 有 一 些 状态 的 转换 就 是 图 中 用 虚线 圈 表 示 的 X1 到 XT。 在 观察 中 ， 这 X1 到 X 的 状态 存在 一 个 客观 
的 转化 规律 ， 但 是 我 们 没 办 法 直接 观测 到 ， 我 们 观测 到 的 是 每 个 X 状 态 下 的 能 让 我 们 看 到 的 输出 O， 就 是 0 到 OT 这 些 输出 值 。 我 
们 需要 通过 O1 到 OFT 这 些 输出 值 来 进行 模型 建立 和 状态 转移 的 概率 计算 。 


我 们 来 看 网 上 一 个 很 有 趣 的 例子 ， 让 人 比较 容易 理解 整个 过 程 。 上 3 


假设 我 手 里 有 三 个 不 同 的 山 子 。 
l 
SS— MEF BREA UARA (RXAMERFJJD6) , ONE, BSH (1, 2, 3, 4, 5, 6) 出 现 的 概率 是 6 。 
] 
SSS SSO (XT BEFJJDA) ， 每 个 面 (1, 2, 3, 4) 出 现 的 概率 是 4 。 


] 
第 三 个 股子 有 八 个 面 (PRX PRFADS) ， 每 个 面 (1, 2, 3, 4, 5, 6, 7, 8) 出 现 的 概率 是 。 


当然 ， 用 其 他 点 数 的 骨 子 原理 是 一 样 的 。 三 种 撕 角 子 可 能 产生 的 结果 如 下 : 


= FRR AES FA) BET EAR 


RIRIH MAX EE, FORENAME, ZARB ACH RES, FICS RX MaRS. RIEAN 
] 


子 里 挑 一 个 ， 挑 到 每 一 个 蜗 子 的 概率 都 是 3 。 然 后 我 们 掷 蜗 子 ， 得 到 一 个 数字 ，1、2、3、4、5、6、7、8 中 的 一 个 。 不 停 地 重 
复 上 述 过 程 ， 我 们 会 得 到 一 串 数字 ， 每 个 数字 都 是 1、2、3、4、5、6、7、8 中 的 一 个 。 


例如 我 们 可 能 得 到 这 么 一 串 数字 (ABS OLX) : 1、6、3、5、2、7、3、5、2、4， 这 串 数字 叫做 可 见 状态 链 ， 也 残 是 我 
们 记录 的 这 组 数字 ， 也 是 我 们 前 面 说 的 On。 但 是 在 隐 马 尔 可 夫 模 型 中 ， 我 们 不 仅仅 有 这 么 一 串 可 见 状态 链 ， 还 有 一 串 隐 合 状 态 
链 。 在 这 个 例子 里 ， 这 捉 隐 合 状 态 链 束 是 我 们 选 出 的 山子 的 序列 。 比 如 ， 隐 合 状 态 链 有 可 能 是 : D6, D8, D8, D6, D4, D8, 
D6、D6、D4、D8。 如 果 我 们 继续 选取 和 投掷 还 能 得 到 这 个 状态 链 上 更 多 的 节点 。 一 般 来 哆 ，HMM 中 说 到 的 马尔 可 夫 链 其 实 是 
指 隐 合 状 态 链 ， 因 为 实际 是 隐 合 状态 (MERT) 之 间 存 在 转换 概率 (transition probability) 。 


l 
在 我 们 这 个 例子 里 ，D6 的 下 一 个 状态 是 D4、D6、D8 的 概率 都 是 3。D4、D8 的 下 一 个 状态 是 D4、D6、D8 的 转换 概率 也 都 


] 
一 样 是 3 ， 虽 然 我 们 在 示例 中 的 10 次 中 没有 画 出 来 所 有 的 情况 ， 但 是 从 古典 概率 的 角度 来 分 析 ， 应 该 是 这 样 ， 而 实际 上 我 们 也 可 
以 从 大 量 的 毛 般 子 实验 中 得 到 这 样 的 转换 概率 的 统计 结果 。 这 样 设 定 是 为 了 最 开始 容易 说 清楚 ， 其 实 我 们 是 可 以 随意 设 定 转换 概 
率 的 。 比 如 ， 我 们 可 以 这 样 定义 ，D6 后 面 不 能 接 D4，D6 后 面 是 D6 的 概率 是 0.9， 是 D8 的 概率 是 0.1。 学 习 的 内 容 ， 其 实 是 有 10 


个 ， 其 中 D4 有 2 个 ，D6 有 7 个 ，D8 有 1 个 ， 等 等 。 这 样 残 是 一 个 新 的 HMM ， 因 为 转换 概率 肯定 是 与 我 们 当前 的 例子 不 同 的。 而 
同样 的 ， 尽 管 可 见 状 态 乙 间 没 有 直接 的 转换 概率 ， 但 是 隐 含 状态 和 可 见 状 态 之 间 有 一 个 概率 叫 作 输 出 概率 (emission 
probability) 。 


1 1 
就 我 们 的 例子 来 阅 ， 六 面 蜗 子 (D6) 产生 1 的 输出 概率 是 6 。 产 生 2、3、4、5、6 的 概率 也 都 是 6 。 我 们 同样 可 以 对 输出 概 
1 
进行 其 他 定义 。 比 如 ， 我 有 一 个 被 赌场 动 过 手脚 的 六 面 骨 子 ， 搓 出 来 是 1 的 概率 更 大 ， 是 2， 搓 出 来 是 2、3、4、5、6 的 概率 是 


zi- # 


隐 马 尔 可 夫 模 型 示意 图 


从 一 个 隐 含 状态 到 下 
一 个 隐 含 状态 的 转换 
| AH 
一 个 可 见 状态 的 输出 
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"CD 


训练 一 个 HMM 模 型 是 比较 容易 的 ， 那 束 是 输入 这 个 Xj 序列 和 这 个 Oj 序列 。 最 后 训练 是 完全 通过 统计 学 模型 完成 的 ， 而 得 到 
的 模型 结果 束 是 最 后 这 个 由 D4、D6、D8 所 组 成 的 转移 矩阵 。 准 确 说 我 们 得 到 了 两 个 矩阵 ， 一 个 是 X 之 间 的 表示 隐 合 状态 转移 天 
系 的 算 阵 ， 一 个 是 X 到 OO 之 间 的 输出 概率 算 阵 。 从 整个 过 程 来 看 ， 隐 马尔 可 夫 模 型 从 给 予 样本 序列 到 最 后 训练 出 来 两 个 矩阵 ， 应 


该 是 经 历 了 一 个 非 监 督学 习 过 程 。 


一 旦 这 样 的 关系 得 到 了 ， 融 可 以 进行 一 系列 的 预测 工作 ， 例 如 在 知道 一 次 Xi 后 判断 Xi+1 和 Oi+1 的 最 大 可 能 性 ， 当 然 ， 反 推 


Xi-1 和 Oi-1 也 没 问 题 。 


[1] Anapeň Anapeesua Mapxos (1856 年 6 月 一 1922 年 7 月 ) ， 俄 国 数学 家 ， 主 要 著作 有 《概率 演算 》 等 。 
[2] 图 片 来 源 于 百度 图 库 。 
[3] 该 例子 来 源 于 知 乎 ， 作 者 : Yang Eninala， 链 接 : http://www.zhihu.com/question/20962240/answer/33438846， 有 部 分 删改 。 


8.2 RNN 和 BPTT 算 ; 


在 了 解 到 隐 马 尔 可 夫 模 型 之 后 ， 我 们 知道 了 这 样 一 个 事实 ， 那 束 是 通过 统计 的 方法 可 以 去 观察 和 认 知 一 个 事件 序列 上 临近 事 
件 友 生 的 概率 转化 问题 。 在 RNN 模 型 中 是 允许 模型 在 训练 中 去 学 习 这 种 前 后 之 间 的 转化 影响 的 ， 只 不 过 束 是 在 RNN 模 型 中 你 是 
无 法 得 到 那 种 标准 的 隐 马 尔 可 夫 模 型 训练 中 得 到 的 清晰 的 转化 算 阵 。 闲 言 少 叙 ， 我 们 来 看 看 RNN 模 型 究竟 长 什么 样 。 


8.2.1 结构 


RNN 比 起 前 馈 神 经 网 络 和 卷 积 昼 经 网 络 来 说 显得 更 为 复杂 一 些 ， 从 结构 上 看 融 部 得 有 那么 点 “个 性 ”。 


我 们 先 来 看 看 它 的 样子 吧 。 


Vector 


传统 的 RNN 从 外 形 上 来 看 就 是 这 样 一 个 结构 。 下 面 这 个 Vector 是 输入 向 量 ， 我 们 称 之 为 Xt， 右 侧 的 Y 是 输出 向 量 ， 在 使 用 的 
过 程 中 和 以 前 我 们 看 过 的 卷 积 网 络 去 做 图 片 分 类 一 样 一 一 卷 积 网 络 中 的 图 片 分 类 在 训练 的 过 程 中 实际 上 是 把 所 有 的 样本 和 标签 
一 对 一 对 放 入 网 络 ， 图 片 企 “ 入 口 ”， 分 类 标 釜 在 “出 口 ”， 用 样本 图 片 产生 的 拟 合 值 与 “出 口 ” 标 尝 的 差 来 定义 残 差 ， 然 后 一 
步 一 步 去 挪动 网 络 中 的 各 种 权重 w， 使 得 残 差 癌 痢 减 小 的 方向 前 进 。 在 RNN 中 的 计算 方式 没有 什么 大 的 差别 ， 向 量 Xt 政 在 入 口 的 
待 输 出 的 内 容 放 在 Y 的 位 置 。 中 间 单 元 〈 融 是 图 中 无 字 的 日 方 框 ) 中 的 待定 权重 一 旦 设 定 ， 融 一 定 会 产生 一 个 残 差 。 


fug, f 
这 里 有 两 个 待定 系数 ， 一 个 是 Wx， 一 个 是 WH， 其 中 Wx 会 与 Xt 同 量 做 乘积 ， 作 为 输入 的 一 部 分 ， 那 么 男 一 部 分 呢 ， 是 由 前 
医 参 与 运算 ， 共 同 输出 最 后 的 


一 次 输出 的 Ht-1 和 WH 相 乘 得 到 。 等 于 况 前 一 次 计算 输出 的 Ht-1 需 要 缓 仔 一 下 ， 在 本 次 Xt 和 输入 的 时 候 


Ys 


而 Y 也 是 一 个 向 量 ， 它 是 由 前 面 输入 的 Ht1 和 WH 相 乘 所 产生 的 向 量 和 Wyx 与 Xit 相 乘 所 产生 的 向 量 加 和 后 做 SOFTMAX 得 到 
的 。SOFTMAX 我 们 是 知道 的 ， 输 出 的 是 一 个 多 维 向 量 ， 不 论 有 多 少 个 分 量 ， 其 加 和 都 是 1， 每 个 向 量 的 分 量 维度 是 一 个 小 于 1 的 
值 ， 而 这 个 值 是 可 以 做 概率 解释 的 。 

我 们 可 以 看 到 在 这 样 一 个 模型 里 是 蕴含 着 这 样 的 逻辑 的 ， 那 就 是 前 一 次 输入 的 向 量 XT 1 所 产生 的 结果 对 于 本 次 输出 的 结果 是 
有 一 定 的 影响 的 ， 甚 至 更 远 期 的 XT. 2、XT-3…. 都 “潜移默化 ”地 在 影响 本 次 输出 的 结果 。 这 中 间 的 具体 量化 的 逻辑 关系 是 需 


我 们 通过 训练 得 到 的 ， 那 束 是 得 到 待定 的 WXf0WH 算 阵 。 


8.2.2 ”训练 过 程 


最 简单 的 RNN 模 型 在 工作 的 时 候 是 可 以 一 个 单元 独立 工作 的 ， 融 像 前 一 节 搞 述 的 那样 。 


从 时 间 维 度 上 做 一 个 展开 可 以 像 下 面 这 么 画 ， 请 注意 ， 这 个 是 在 时 间 维 度 上 展开 的 ， 所 以 不 是 RNN 出 了 变种 ， 更 不 是 说 
RNN 在 物理 上 是 这 样 级 联 的 。 


这 种 RNN 模 型 训练 的 时 候 是 怎么 做 呢 ? 我 们 用 一 个 例子 来 找 找 感 咯 。 比 如 我 们 要 训练 一 个 聊天 机 器 人 的 十， 可 能 会 得 到 这 
样 一 个 语料库 ， 或 者 我 们 称 之 为 话 术 库 : 


Ws AREF. 
Gi: ARF. 
TI 今天 天 气 不错 啊 。 
Cu AN; p LOGOS 
P: 你 打算 去 哪里 玩 ? 


乙 : 我 家 里 还 有 一 些 事情 ， 不 想 出 去 。 


IÑ 


EJA E EAA RRAS, VELARA (WFE) : 


今天 天 气 不 错 啊 。 是 的 ， 万 里 无 云 。 


~ 
~ 
E 


你 好 。 今天 天 气 不 错 啊 。 


聪明 的 读者 朋友 一 定 能 猜 出 来 ， 往 后 继续 展开 就 继续 这 样 往 里 放 束 可 以 了 。 人 在 这 个 训练 的 过 程 中 ， 文 字 是 没 办 法 直接 扔 进去 
的 ， 所 以 都 会 通过 一 个 “Word to Vector” 的 功能 模块 把 字 或 词汇 转换 成 为 数字 向量 。 这 种 功能 模块 有 不 少 开源 的 算法 支持 ， 
也 属于 比较 成 熟 的 技术 。 这 样 ， 当 Wxf0WH 这 两 个 矩 阵 被 初始 化 之 后 ， 一 定 在 Y 一 侧 有 输出 的 ， 那 就 一 定 有 残 差 产 生 。 设 每 个 样 
本 产生 的 残 差 是 Ei;， 人 在 一 次 完整 的 训练 中 ， 整 个 网 络 的 残 差 右 是 从 第 一 次 扔 进去 对 话 的 第 一 句 和 第 二 句 的 时 候 闫 生 的 E1|， 加 上 第 
二 句 和 第 三 句 放 进 去 的 时 候 闫 生 的 E2.……. 一 直 加 到 倒数 第 二 句 和 倒数 第 一 句 放 进去 的 时 候 所 产生 的 残 差 En-1， 也 就 是 可 以 简写 
成 : 


Loss = 


一] 


然后 ， 下 面 按照 我 们 学 到 的 套路 融 应 该 照 独 画 席 地 求 导 并 更 新 了 ， 不 过 事情 好 像 不 像 我 们 想 得 这 么 顺利 。 


8.2.3 XRMEA Reus 


RNN 的 训练 过 程 跟 以 前 我 们 见 过 的 BP 神 经 网 络 其 实 没有 什么 本 质 的 差别 ， 还 是 一 样 的 思路 。 


假定 整个 网 络 确实 有 那么 一 个 状态 ， 此 时 使 得 Wx 和 WH 的 值 能够 满足 残 差 总 和 最 小 的 情况 。 那 么 在 我 初始 化 Wx 和 WH 的 时 
候 我 仍然 需要 把 这 两 个 矩阵 中 的 各 维度 分 量 值 向 着 减 小 残 磊 的 万 向 去 移动 ， 方 向 是 好 确定 的 一 一 我 们 说 过 ， 最 土 的 方法 可 以 同 
正方 向 挪动 一 个 很 小 的 值 ， 然 后 向 负 方 向 挪动 一 个 很 小 的 值 ， 比 较 一 下 哪 一 种 产生 的 残 关 和 更 小 。 而 我 们 前 面 多 次 见 过 的 用 链 式 
法 则 求 导 的 过 程 ， 目 的 是 为 了 确定 挪 多 少量 更 合适 ， 没 错 吧 ? 


在 当前 这 个 网 络 模型 中 Wx 和 WH 孝 是 我 们 最 终 要 学 习 的 内 容 ， 其 实 残 差 总 和 Loss 应 该 来 自 于 两 个 部 分 : 一 部 分 是 由 于 Wf 
理想 的 Wy 的 状态 的 差距 造成 的 ， 而 另 一 部 分 是 WH 和 理想 的 WH 的 状态 差距 造成 的 。 现 在 就 是 要 求 出 关于 这 两 个 向 量 的 导数 
也 就 是 斜率 的 表达 式 来 确定 每 次 移动 多 少 。 可 以 求 吗 ? 可 以 的 ， 但 是 会 出 现 一 些 令 人 骨 溃 的 问题 。 


对 于 整个 网 络 的 误差 的 两 部 分 来 源 ， 我 们 这 样 来 写 : 


Loss = aE, + bE, 


其 中 EX 表示 由 Wx 引 起 的 误差 ，EH 表 示 由 WH 引 起 的 误差 ，a 和 b 分 别 表示 由 样本 产生 的 系数 。 那 我 们 展开 看 一 下 : 


uf (H) + W, 
7 = SOFTMAX ( f (H;)) 


如 果 只 有 一 对 输入 Xt 和 Yt， 也 瓯 是 X1 和 Y1， 那 这 个 时 候 的 残 差 是 什么 呢 ? 


H? =W, fO+W.X 


E = E SOFTMAX ( f (H?)) — Y, 


tate 


W.(f(H2)-X) 


EHFPEWszeJRSOFTMAXFBRSWSBIE., 


85A 2435 — T EEASBUESMEE, RIEBE ERES FE, FAIRE MEEK HR SEMAI AAT. de esI JA INTE 
了 ， 主 要 是 为 了 求 出 每 次 “ 挪 ” 多 少 才 费 这 个 劲 儿 的 。 从 上 面 的 表达 了 式 我 们 可 以 看 出 来 E1 作 为 函数 ， 则 待定 系数 Wx 和 WH 都 成 


为 了 它 的 目 变 量 ， 那 么 融 需 要 分 别 对 它们 求 俩 导数 来 得 到 梯度 大 小 。 


Wy 的 部 分 是 这 样 的 : 


OE, 
OW, 
OW. f(H?) 
oW, 
fH) 
> OW, 
Of (HA?) OM, FOFW ) 
” OH’ OW, 
一 WX, AE 
OH, 


其 实 不 难看 出 来 ， 当 仪 有 1 个 样本 对 输入 的 时 候 ， 这 残 差 在 WXx 上 的 斜率 仪 仅 和 X1 向 量 有 关系 。 如 果 你 有 兴趣 展开 的 话 ， 如 
果 有 2 个 样本 对 ，3 个 或 更 多 ， 也 仍旧 是 和 X1 与 X2，X1、X2 与 X3 有 天 ， 这 部 分 的 误差 很 容易 看 到 ， 即 X1 到 Xn。 


可 是 WH 的 部 分 束 没 那么 舒服 了 。 


OE 


on 
OW, 
OW, 
~” OW, 
ay, FOTO Wa f Ot WX) 
^ OH; OW, 


Of (H?) ow, fO 
* OH? OW, 


oW, fO 
写 到 这 里 ， 细 心 的 朋友 可 能 已 经 看 出 问题 了 ， 间 题 束 在 脱 式 计算 最 后 的 这 个 部 分 的 最 后 一 个 子 项 目 “% V EXT - Swe 


化 简 完 了 应 该 是 个 光秃秃 的 f () ， 这 表示 第 一 次 代入 一 对 输入 和 输出 值 的 时 候 ， 这 个 部 分 的 值 就 是 初始 化 的 时 候 给 的 那个 
Ho 值 ， 因 为 没有 输入 或 者 是 一 个 做 边缘 补 齐 性 的 输入 ， 所 以 写成 f () 问题 也 不 大 。 因 为 这 个 环节 在 整个 网 络 训练 中 只 出 现 一 
， 不 会 对 整体 的 训练 结果 有 明显 的 影响 。 


然而 如 果 是 第 3 对 输入 的 值 ， 这 个 地 方 会 变 成 什么 ? 


OW, f ( 
OW, 


H, = Wi f (Hi) + Wy X, 


0H, 
这 仍然 是 一 个 关于 WH 的 函数 ， 所 以 要 继续 求 导 求 出 ““ 才能 确定 这 个 导数 值 的 大 小 。 听 起 来 倒是 不 难 ， 可 问题 是 在 训练 的 
过 程 中 可 能 有 成 干 上 万 个 向 量 对 会 放 进去 ， 如 果 有 1000 个 ， 那 就 需要 求 这 一 系列 的 导数 并 连 乘 起 来 


OH 09 OH, OH, oe OH, OH, 
T; 3 Fa i Fa A, h TA, 
OW, OW, OW,, OW, | OW, 
才能 确定 为 了 减 小 第 1000 个 向 量 所 造成 的 误差 的 导数 大 小 。 这 简直 就 是 灾难 ， 因 为 这 种 一 长 串 的 连 乘 形式 组 织 在 一 起 除了 


加 大 了 运算 的 时 间 复杂 度 ， 还 会 引 友 梯度 消失 或 梯度 爆炸 问题 。 


因此 ， 传 统 的 RNN 虽 然 在 理论 上 说 得 通 ， 但 是 在 训练 中 的 效果 是 非常 不 理想 的 。 在 对 RNN 的 改造 中 后 人 友 现 了 一 种 叫做 
LSTM 的 算法 代 蔡 BPTT 算 法 来 实现 RNN 的 训练 方式 。 


83 LSTM 和 但 法 


LSTM 算 法 的 全 称 是 长 短期 记忆 网 络 (long short-term memory) ， 由 LSTM 算 法 对 标准 的 RNN 进 行 的 改进 ， 会 得 到 
LSTM 网 络 一 一 这 当然 也 是 RNN 的 一 种 了 ， 不 过 由 于 它 规避 了 标准 的 RNN 中 的 梯度 爆炸 和 梯度 消失 的 问题 ， 所 以 会 显得 更 好 用 
一 些 ， 学 习 速 度 更 快 。 


现在 在 工业 上 ， 如 果 考 虑 使 用 RNN 作 为 模型 来 训练 的 时 候 通 常 也 是 直接 使 用 LSTM 网 络 ， 这 一 点 大 家 可 以 省 点 心 了 。LSTM 
网 络 与 传统 的 RNN 网 络 相 比 多 了 一 个 非常 有 用 的 机 制 ， 就 是 忘记 门 (forget gate) [1]。 这 个 事例 说 明 几 乎 是 现在 所 有 的 LSTM 
算法 介绍 的 资料 中 都 喜欢 引用 的 一 个 最 经 典 的 例子 了 。 


先 看 一 个 最 基本 的 LSTM 单 元 连接 起 来 的 样子 ， 如 下 图 : 


对 于 一 个 输入 的 序列 Xj 来 滴 ， 某 一 个 X 值 可 能 会 影响 一 个 在 时 间 上 或 者 空间 上 比较 远 的 hj 的 输出 ， 训 | 练 过 程 束 是 要 学 习 到 影 
响 的 量化 关系 。 上 图 这 种 说 的 是 有 一 层 LSTM 单 元 连接 起 来 的 样子 ， 拓 扑 结 构 就 这 样 。 


时 间 


在 工业 上 使 用 的 时 候 ，LSTM 是 可 以 像 上 面 这 样 成 为 一 个 很 大 的 方 孟 的， 其 中 除了 输入 层 和 输出 层 分 别 对 应 着 Xt 和 ht 的 值 以 
外 ， 中 间 的 部 分 都 是 一 个 一 个 的 LSTM 单 元 。 我 们 来 解剖 一 下 这 个 单元 ， 看 看 有 什么 特别 的 地 万 。 


x) © 


psp 


cj © — >> — 


神经 网 络 层 XE ARTE 四 量 传输 连接 合并 


LSTM 的 单元 看 上 去 残 是 这 样 一 种 效果 ， 一 个 一 个 首尾 相 接 ， 同 一 层 的 会 把 前 面 单元 的 输出 作为 后 面 单元 的 输入 ; 前 一 层 的 
输出 会 作为 后 一 层 的 输入 。 这 似乎 没有 什么 太 多 好 说 的 ， 那 我 们 来 看 看 具体 一 个 单元 中 都 有 什么 东西 。 


C,- | | ~ C, 


首先 从 左 到 右 会 有 这 样 的 一 个 向 量 进行 传输 ， 从 单元 的 左 侧 进入 我 们 称 作 Ct-1， 从 右 侧 输出 称 作 Ct。 这 上 面 只 有 两 个 交互 的 
部 分 ,一 个 是 左 侧 的 “ 乘 号 ”， 一 个 是 右 侧 的 “加 号 ”。 先 说 加 号 部 分 ， 这 殊 是 普通 的 向 量 线性 蔷 加 ， 也 没什么 稀奇 的 。 左 边 这 
个 乘 号 是 一 个 乘法 器 ， 这 个 操作 相当 于 左 侧 的 Ct-1 进 入 单元 后 ， 先 要 被 一 个 乘法 器 习 以 一 个 系数 后 ， 骨 线性 去 加 一 个 数值 然后 从 
右 侧 输出 去 。 


刚刚 提 到 的 乘法 器 乘 的 这 个 系数 是 这 样 一 个 来 源 。 可 以 看 到 左 侧 的 ht-1 和 下 面 输入 的 xt 经 过 了 连接 操作 ， 再 通过 一 个 续 性 单 
元 ， 和 一 个 o 也 束 是 Sigmoid 遂 数 之 后 生成 了 一 个 0 到 1 之 间 的 数字 作为 系数 输出 。 表 达 式 是 这 样 : 


f, iod Wh, | tb, 


XR NUE—T "eil TF, AMS "mio WTI MERRIE, WERSigmoideevsihA1, Eneo, An 
Reece sic, FRIBBUERBBESUS— T icloBJEG PIS CHEC Mia f, XSW FAG ERSVER ATA 
学 习 的 。 


这 里 有 两 个 小 的 神经 网 络 层 ， 一 个 是 我 们 熟悉 的 标识 的 部 分 ， 表 达 式 为 : 


i — o (Wh 


f 


SDAA ManhiniRt BMA, RATA: 


C, = tanh (Wo «4h, ,,x, ] - b, 


这 个 tanh 遂 数 在 前 面 只 提 到 过 一 次 ， 它 可 以 把 一 个 值 映射 到 -1 和 1 之 间 ， 这 里 的 Wc 和 bc 也 是 要 通过 训练 得 到 的 。 


x,|+Db, 


[一 | 


在 这 之 后 ， 由 前 一 次 传递 过 来 的 Ct_ 1 向 量 会 和 C, 进 行 线性 晋 加 。. 


Y _ _ f% k 
C. = f, C tI, C; 


到 这 里 其 实 决定 了 本 次 输出 的 Ct 究 竟 有 多 少 及 纳 本 次 输入 的 信息 ， 有 多 少 采 纳 上 一 次 遗留 下 来 的 信息 。 如 果 是 企 语言 模型 


中 ， 那 么 就 是 关于 前 一 个 主语 到 当前 是 否 应 该 补遗 筷 ， 而 新 的 主语 是 否 应 该 代 蔡 原先 的 主语 出 现 。 


最 后 的 输出 有 两 个 部 分 ， 从 图 上 就 可 以 看 出 来 是 该 单元 生成 的 ht， 一 个 输出 到 同 层 下 一 个 单元 ， 一 个 输出 到 下 一 层 的 单元 
上 。 表 达 式 为 : 


0, - OÀW +h_,,x,|+5, 
h, =o, * tanh(C,) 


jxE E SERT doen té HR Ces M EI T Ogsini] (forget gate) 的 乘积 效果 来 做 输出 成 为 ht。 在 语言 模型 
中 ， 这 种 影响 是 可 以 影响 前 后 词 之 间 词 形 的 相关 性 的 ， 例 如 前 面 输入 的 是 一 个 代词 或 者 名 词 ， 后 面 跟随 的 动词 会 学 到 是 否 使 
用 “三 单 形式 ”或 根据 前 面 输入 的 名 词 数量 来 决定 输出 的 代词 是 单数 形式 还 是 复数 形式 。 

在 NLP 领域 LSTM 应 用 还 是 比较 成 熟 的 ， 而 且 应 用 也 比较 广泛 ， 这 样 的 例子 是 很 多 的 。 这 里 虽然 出 现 了 很 多 的 公式 ， 但 是 不 
用 紧张 ， 这 些 公 式 是 绝对 不 要 求 进行 强 记 的 ， 无 论 是 就 业 面 试 还 是 在 实际 工作 中 ， 我 们 在 这 里 只 是 了 解 一 下 它 内 部 工作 的 大 致 原 
理 。 我 们 只 要 清楚 ， 一 段 输入 的 内 容 如 果 上 下 文 有 着 潜在 的 影响 关系 ， 那 么 用 LSTM 可 以 帮 有 我 们 把 这 些 关 系 学 出 来 的 。 最 终 在 实 
际 工程 中 我 们 还 是 会 用 TensorFlow 这 种 封装 好 的 库 来 实现 。 


[1] 说 明 内 容 来 源 于 http://colah.github.io/posts/2015-08-Understandine-LSTMs/， 有 删改 。 


8.4 应 用 场景 


在 我 们 了 解 到 了 循环 神经 网 络 的 原理 和 作用 后 ， 这 一 节 融 来 看 看 它 的 应 用 场景 。 


襄 到 RNN 网 络 一 一 这 里 说 的 RNN 网 络 泛 捐 以 循环 神经 网 络 的 方式 来 实现 的 网 络 ， 包 括 传统 RNN 或 LSTM 等 ， 其 结构 比 原先 
的 BP 网 络 和 和 CNN 网络 都 要 复杂 ， 尤 其 是 它 允 许 输入 和 输出 都 是 多 个 值 或 者 说 多 个 向 量 ， 所 以 它 的 功能 更 为 丰富 


T D0 P TOR EDD 
] QOO DOO opii DE 
mm SUU HL TUL 


已 可 以 做 分 类 工具 ， 可 以 做 有 限 状 态 机 (控制 程序 ) ， 可 以 做 翻译 器 ， 可 以 做 聊天 机 器 人 等 看 上 去 很 酷 炫 的 事情 。 

这 里 有 一 个 RNN 可 以 做 的 事情 的 “可 视 化 ”归纳 ， 大 致 分 区 是 “一 到 一 ”、“ 一 到 多 ”、“ 多 到 一 ”、“ 多 到 多 ”的 映射 
种 类 。 

“一 到 一 ”就 不 用 说 了 ， 普 通 的 函数 能 做 的 事情 ，RNN 肯 定 是 能 够 做 到 的 。 


“一 到 多 ”是 一 种 单一 向 量 输入 ， 多 向 量 输出 的 场景 。 具 体 说 起 来 ， 例 如 描述 一 张 图 上 的 信息 ， 微 软 的 识 图 机 器 人 
CaptionBot 就 是 比较 典型 的 这 种 应 用 ，https://www.captionbot.ai/。 


PRECES <a (Rowan Atkinson) 这 样 的 公众 人 物 还 是 能 够 指名 道 姓 地 认 出 来 的 ， 其 他 的 大 众 脸 人 物 基本 不 大 可 
能 。 它 能 够 拉 述 场景 中 有 什么 人 物 或 者 物体 ， 并 捅 述 他 们 之 间 的 关系， 这 一 后 是 RNN 所 拥有 的 一 个 优势 。 当 然 了 ， 对 于 目 己 不 
熟悉 的 场景 它 束 无 能 为 力 了 ， 例 如 最 后 一 张 图 认 成 了 一 个 小 男孩 站 在 草 从 里 ， 这 主要 是 由 于 美国 人 没 见 过 及 茶 嬉 女 ， 也 没 拿 这 种 
图 片 正经 训练 过 机 器 的 原因 …… 


| think it's Rowan Atkinson wearing a suit and tie and he seems 


[509] 
Fs. 


Thank you for your feedback :) 


| am not really confident, but | think it's a group of people 


standing in a subway car. 


Thank you for your feedback :) 


| am not really confident, but I think it's a little boy that is 
standing in the grass. 


Thank you for your feedback :) 


在 Github 上 也 有 一 些 开 源 的 项 目 用 的 就 是 CNN+RNN 的 模型 。 其 中 CNN 用 来 提取 特征 ，RNN 用 这 些 特征 的 Feature 向 量 和 
描述 向 量 来 做 训练 ， 例 如 https://github.com/karpathy/neuraltalk2 等 。 如 下 图 所 示 ， 这 种 模型 是 可 以 标注 下 面 的 这 些 图 片 中 
有 什么 物体 (AMD) ， 以 及 他 们 的 状态 或 者 动作 。 


a train is traveling down the tracks at a a bench sitting on a patch of grass next to 
a man is playing tennis on a tennis court train station a cake with a slice cut out of it a sidewalk 


“多 到 一 ”可 以 用 于 识别 视频 主题 分 类 。 例 如 ， 项 目 “C3D: Generic Features for Video Analysis” 就 可 以 实现 主题 的 识 
别 ， 地 址 : http://vlg.cs.dartmouth.edu/c3d/。 这 个 项 目 目前 可 以 比较 好 地 对 播放 的 体育 竞技 内 容 进行 分 类 识别 。 


“多 到 和 多" 


a au 
Ta 


~ 


的 用 例 是 比较 多 的 ， 而 且 也 是 大 家 非 芝 热衷 研究 的 一 个 领域 。 例 如 ， 聊 天 机 器 人 ， 可 以 在 客服 、 问 讯 系统 等 场景 


下 应 用 ,减少 人 工 投入 。 例 如 ， 目 动 翻译 机 嚣 人， 在 谷歌 和 百度 这 样 的 巨型 互联 网 公司 也 已 经 有 了 很 好 的 应 用 ， 尤 其 是 在 有 些 场 


景 中 ， 翻 译 的 细 县 程度 已 经 快 可 以 和 较 好 的 人 工 翻 译 难 分 但 仲 了 。 


你 喜欢 吃 西 餐 吗 ? 
中 yr 


Coogle 
AER 
ABO HAS pS ES4HH35 ~ 


| have never saw a saw saw a saw. 


33/5000 


Google 


flan 


T 


RB AAD PHS SBeRUTS ~ 


She who is a very famous Violinist had decided to visit * 


China to hold a serial of concerts which will take place in 
Beijing and Shanghai. 


4) & m- 137/5000 


AIRF n TRENJA 。 “下载 德 译 app sh..7@sohu.com v 


ae IVER: 


Do you like western food? 


d à 2 


UPIS1LBREBMCIS O 


nam xm [eamm] - 
我 从 来 没有 见 过 锯 锯 。 


* Ooo < 


W6 cónglái méryóu jianguo ju jů. 


UPIS1LBREBMICIS O 


AAR Am PESE - 


她 是 一 位 非常 厦 名 的 小 提琴 家 ， 决 定 访问 中 国 ， 在 北京 和 
上 海 举行 一 系列 的 音乐 会 。 


De 


除了 措辞 有 失 文 采 和 感人 的 情绪 ， 通 顺 程度 已 经 完全 可 以 达到 正常 阅读 的 标准 了 ， 这 不 能 不 说 给 需要 跨 语言 阅读 的 人 们 带 来 
了 极 大 的 便利 。 另 外 还 有 一 些 描述 视频 段 信息 的 RNN 项 目 ， 例 如 https://github.com/samim23/NeuralTalkAnimator。 


这 也 同样 属于 “多 到 多 ”的 应 用 场景 。 在 这 样 一 个 Demo 视 频 中 ， 网 络 能 够 正确 识别 出 图 中 有 一 群 人 站 在 绿色 的 草坪 上 。 


这 些 项 目 不 管 丙 用 程度 如 何 ， 人 至 少 看 上 去 都 很 “有 趣 ” 对 不 对 ? 如 果 感 品 有 趣 ， 那 束 下 载 来 玩 玩 看 ， 反 正义 不 要 钱 。 做 工程 
做 项 目的 人 经 验 是 很 重要 的 ， 多 接触 一 些 开 源 项 目 肯 定 没 有 坏处 。 


OOO 
Un 
中 


践 案例 自动 文 


看 别人 说 得 再 热闹 也 没有 咱 目 己 动 手 实现 来 得 好 ， 这 次 我 们 来 看 一 个 自动 文本 生成 的 小 工程 ， 同 样 是 TensorFlow 官 方 提 供 
的 最 为 经 典 的 RNN 入 门 案例 ， 我 们 先 感受 一 下 。GitHub 文 件 位 置 在 https://github.com/tensorflow/models， 文 件 所 在 目录 : 
models/tutorials/rnn/ptb。 本 书 中 讲解 两 个 文件 ptb world Im.py 和 reader.py。 


8.5.1 ”RNN 工 程 代 人 码 解读 


1.ptb world Im.py 


以 下 是 ptb world Im.py 中 的 实现 代码 : 


1 4 Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


64 import reader 


66 flags = tf.flags 
67 logging = tf.logging 


68 
69 flags. DEFINE string ( 
70 "modeli", "Small", 


71 "A type of model. Possible options are: small, medium, large.") 
72 flags. DEFINE string("data path", None, 

73 "Where the training/test data is stored.") 

74 flags.DEFINE string("save path", None, 

75 "Model output directory.") 

76 flags. DEFINE bool("use fp16", False, 

77 "Train using 16-bit floats instead of 32bit floats") 


79 FLAGS - flags.FLAGS 


82 def data type(): 
83 return tf.floatl16 if FLAGS.use fp16 else tf.float32 


84 

85 

86 class PTBInput (object): 

87 Te input data, Tn 

88 

89 def init (self, config, data, name-None): 


90 self.batch size = batch size = config.batch size 

91 self.num steps - num steps - config.num steps 

92 self.epoch size - ((len(data) // batch size) - 1) // num steps 
93 self.input data, self.targets - reader.ptb producer( 

94 data, batch size, num steps, name-name) 


95 

96 

97 class PTBModel (object): 
98 """The PTB model.""" 

99 


100 def | init (self, is training, config, input ): 
101 self. input - input 

102 

103 batch size - input .batch size 


104 num steps - input .num steps 
105 size - config.hidden size 

106 vocab size - config.vocab size 
107 


108 4 Slightly better results can be obtained with forget gate biases 

109 # initialized to 1 but the hyperparameters of the model would need to be 
110 4 different than reported in the paper. 

111 def lstm cell(): 


112 return tf.contrib.rnn.BasicLSTMCell( 
113 size, forget bias=0.0, state is tuple=True) 


115 attn cell - lstm cell 

116 if is training and config.keep prob « 1: 
117 def attn cell(): 

118 return tf.contrib.rnn.DropoutWrapper( 


119 lstm cell(), output keep prob-config.keep prob) 

120 cell - tf.contrib.rnn.MultiRNNCell( 

121 [attn cell() for in range(config.num layers)], state is tuple-True) 
222 


123 self. initial state - cell.zero state(batch size, data type()) 


125 with tf.device("/cpu:0"): 

126 embedding = tf.get variable( 

127 "embedding", [vocab size, size], dtype-data type()) 

128 inputs - tf.nn.embedding lookup(embedding, input .input data) 


130 if is training and config.keep prob « 1: 
131 inputs - tf.nn.dropout(inputs, config.keep prob) 


142 outputs = [] 

143 state - self. initial state 

144 with tf.variable scope("RNN"): 

145 for time step in range (num steps): 

146 if time step » 0: tf.get variable scope().reuse variables() 
147 (cell output, state) = cell(inputs[:, time step, :], state) 
148 outputs.append(cell output) 


150 output = tf.reshape(tf.concat(outputs, 1), [-1, sizel) 

151 softmax w = tf.get variable( 

152 "softmax w", [size, vocab size], dtype-data type()) 

153 softmax b - tf.get variable("softmax b", [vocab size], dtype-data type()) 
154 logits = tf.matmul (output, softmax w) + softmax b 

155 loss = tf.contrib.legacy seq2seq.sequence loss by example( 

156 [logits], 

157 [tf.reshape(input .targets, [-1])], 

158 [tf.ones([batch size * num steps], dtype-data type())1) 


159 self. cost = cost = tf.reduce sum(loss) / batch size 
160 self. final state = state 
161 


162 2E not Ip training: 
163 return 


164 

165 self. lr = tf.Variable(0.0, trainable=False) 

166 tvars - tf.trainable variables() 

167 grads, = tf.clip by global norm(tf.gradients(cost, tvars), 


168 config.max grad norm) 
169 optimizer - tf.train.GradientDescentOptimizer(self. lr) 


self. train_op = optimizer.apply gradients ( 
Zip(grads, tvars), 
global stepstf.contrib.framework.get or create global step()) 


self. new lr - tf.placeholder( 
tf.float32, shape=[], name="new learning rate") 
self. lr update = tf.assign(self. lr, self. new lr) 


def assign lr(self, session, lr value): 
session.run(self. lr update, feed dict={self. new lr: lr value}) 


class SmallConfig (object): 
"'"'!!Gmall conng mer 
init scale = 0.1 


learning rate L0 


max grad norm 


num layers - 2 

num steps - 20 
hidden size - 200 
max epoch - 4 

max max epoch - 13 
keep prob = 1.0 

lr decay = 0.5 

20 
vocab size - 10000 


batch size 


class MediumContfig (object) : 


"""Medium config.""" 
init scale = 0.05 
learning rate - 1.0 
max grad norm = 5 
num layers - 2 

num steps = 35 
hidden size - 650 
max epoch = 6 

max max epoch - 39 


keep prob = 0.5 
lr decay = 0.8 
20 
vocab size - 10000 


batch size 


class LargeContfig (object): 


"n "Large config . "m" 
init scale - 0.04 
learning rate - 1.0 
max grad norm - 10 


243 num_layers = 2 

244 num steps = 35 

245 hidden size = 1500 
246 max epoch = 14 

247 max max epoch - 55 
248 keep prob - 0.35 


249 lr decay = 1 / 1.15 


250 batch size - 20 

251 vocab size - 10000 

A502 

253 

254 class TestConfig (object): 

255 """Tiny config, for testing.""" 


256 init scale = 0.1 
257 learning rate = 1.0 


258 max grad norm 
259 num layers = 1 
260 num steps - 2 
261 hidden size - 2 
262 max epoch - 1 

263 max max epoch - 1 
264 keep prob - 1.0 
265 lr decay = 0.5 
266 batch size 
267 vocab size - 10000 


II 
N 
O 


268 

269 

270 def run epoch (session, model, eval op-zNone, verbose=False) : 
271 """Runs the model on the given data.""" 

272 start time = time.time() 

273 costs = 0.0 

274 iters - O 

275 state - session.run(model.initial state) 


276 

277 fetches = { 

278 "cost": model.cost, 

279 "final state": model.final state, 

280 } 

281 if eval op is not None: 

282 fetches["eval op"] = eval op 

283 

284 for step in range (model.input.epoch size): 
285 feed dict = {} 

286 for i, (c, h) in enumerate (model.initial state): 
287 feed dict[c] = state[il.c 

288 feed dict[h] = state[il.h 

289 


— A "1 . p v 1 " e " -ow » X 


22U vals = session.run(retcnes, reed dict) 


291 cost = vals["cost"] 
292 state = vals["final state"] 


293 
294 
295 
296 
PAM 
298 
299 
300 
301 
3 02 
303 
304 
305 
306 
307 
308 
309 
310 
311 
312 
4.13 
314 
315 
316 
317 
318 
319 
320 
321 
mod 
3235 
324 
325 
326 
327 
328 
329 
330 
3431 
332 
333 
334 
335 
336 
CEY 
34H 


costs += cost 
iters += model.input.num steps 


if verbose and step $ (model.input.epoch size // 10) -- 10: 
print("$.3f perplexity: $.3f speed: $.0f wps" $ 


(step * 1.0 / model.input.epoch size, np.exp(costs / iters), 
iters * model.input.batch size / (time.time() - start time))) 
return np.exp(costs / iters) 


def get config(): 


if FLAGS.model -- "small": 
return SmallConfig () 

elif FLAGS.model == "medium": 
return MediumConfig() 

elif FLAGS.model -- "large": 
return LargeConfig () 

elif FLAGS.model == "test": 
return TestConfig() 

else: 

raise ValueError ("Invalid model: %s", FLAGS.model) 
def main( ): 


if not FLAGS.data path: 
raise ValueError("Must set --data path to PTB data directory") 


raw data - reader.ptb raw data(FLAGS.data path) 
train data, valid data, test data, = raw data 


config - get config() 
eval config = get config () 


eval config.batch size = 1 
eval config.num steps = 1 
with tf.Graph().as default(): 


initializer = tf.random uniform initializer(-config.init scale, 
config.init scale) 


with tf.name scope("Train"): 

train input = PTBInput (config=config, data=train data, name="TrainInput") 
with tf.variable scope ("Model", reuse=None, initializer=initializer) : 
m = PTBModel (is training-True, config=config, input -train input) 
tf.scalar summary("Training Loss", m.cost) 


339 
340 
341 
342 


343 
344 
345 
346 
347 
348 
349 
350 
Msg 
352 
5:5 
354 
352 
350 
35.4 
358 
259 
360 
361 
362 
363 
364 
365 
366 
367 
368 
459 
370 
3d 1 
372 
343 
374 
375 


x ` -7 


tf.scalar summary ("Learning Rate", m.lr) 


with tf.name scope ("Valid"): 
valid input = PTBInput (config=config, data=valid data, name="ValidInput") 


with tf.variable scope("Model", reuse=True, initializer=initializer) : 
mvalid = PTBModel (is training=False, config=config, input =valid input) 
tf.scalar summary ("Validation Loss", mvalid.cost) 


with tf.name scope("Test"): 

test input = PTBInput(config-eval config, data-test data, name="TestInput") 
with tf.variable scope("Model", reuse=True, initializer=initializer) : 
mtest = PTBModel(is training-False, config-eval config, 

input -test input) 


sv - tf.train.Supervisor(logdir-FLAGS.save path) 

with sv.managed session() as session: 

for i in range(config.max max epoch): 

lr decay = config.lr decay ** max(i + 1 - config.max epoch, 0.0) 
m.assign lr(session, config.learning rate * lr decay) 


print("Epoch: $d Learning rate: $.3f" $ (i + 1, session.run(m.lr))) 
train perplexity = run epoch (session, m, eval op=m.train op, 
verbose-True) 

print ("Epoch: $d Train Perplexity: $.3f" $ (1 + 1, train perplexity)) 
valid perplexity = run epoch (session, mvalid) 

print("Epoch: $d Valid Perplexity: $.3f" $ (1 + 1, valid perplexity)) 


test perplexity = run epoch(session, mtest) 
print ("Test Perplexity: $.3f" $ test perplexity) 


if FLAGS.save path: 


print ("Saving model to $s." $ FLAGS.save path) 
sv.saver.save(session, FLAGS.save path, global step-sv.global step) 
if | name == " main ": 

tf.app.run() 


37545, RizllTensorFlow, 


318 ~ 371 行 ， 局 动 TensorFlow 后 首先 调用 main 团 数 。 


322 ~ 323 行 ， 准 备 训练 、 验 证 和 测试 数据 集 。 


324 ~ 327 行 ， 获 取 训 练 参数 和 验证 相关 参数 。 


205 ~ 266 行 ，4 组 不 同 的 训练 参数 设置 。 


335 行 ， 保 存 训练 、 验 证 和 测试 的 参数 和 数据 到 PTBlInput 类 里 ， 返 回 数据 和 对 应 的 标签 。 


336 ~ 33717, 


111 ~ 11347, 


115~ 11947, 


120 ~ 12117, 


125 ~ 12817, 


130 ~ 13117, 


创建 训练 网 络 。 
创建 lstm 音 元 。 


给 lstm 单 元 添加 dropout。 


创建 多 层 |stm。 
每 个 单词 使 用 一 个 唯一 向 量 表 示 ，word_embedding。 


给 输出 层 添加 dropout。 


144 ~ 148 行 ， 开 始 训练 循环 。 

150~ 154 行 ， 过 一 层 全 连接 。 

155 ~ 159 行 ， 计 算 loss。 

165 ~ 176 行 ， 使 用 梯度 下 降 优化 算法 计算 梯度 ， 更 新 降低 learing rate， 截 取 一 下 梯度 值 。 
353 ~ 371 行 ， 开 始 训 练 

356 ~ 357 行 ， 降 低 更 新 learning rate, 

359~ 364 行 ， 分 别 使 用 训练 数据 和 验证 数据 运行 一 个 epoch。 

366 ~ 367 行 ， 使 用 测试 数据 运行 一 个 epoch。 

369~ 371 行 ， 保 存 模型 。 

2.reader.py 文 件 


还 有 一 个 reader.py 文 件 ， 以 下 是 它 的 实现 代码 : 


1 4 Copyright 2015 The TensorFlow Authors. All Rights Reserved. 


25 import tensorflow as tf 


28 def read words (filename): 
29 with tf.gfile.GFile(filename, "r") as f: 


30 return f.read() .decode ("utf-8") .replace("\n", "<eos>").split () 

31. 

dud 

33 def build vocab (filename): 

34 data - read words (filename) 

33 

36 counter - collections.Counter (data) 

37 count pairs = sorted(counter.items(), key=lambda x: (-x[1], x[0])) 
38 

39 words, = list(zip(*count pairs) ) 


40 word to id = dict(zip(words, range(len(words) ) ) ) 


42 return word to id 


45 def file to word ids(filename, word to id): 


46 data = read words (filename) 
47 return [word to id[word] for word in data if word in word to id] 


50 def ptb raw data(data_path=None) : 


69 train path = os.path.join(data path, "ptb.train.txt") 
70 valid path = os.path.join(data path, "ptb.valid.txt") 
71 test path 


os.path.join(data path, "ptb.test.txt") 


Tz 

73 word to id = build vocab(train path) 

74 train data - file to word ids(train path, word to id) 
75 valid data = file to word ids(valid path, word to id) 
76 test data - file to word ids(test path, word to id) 
77 vocabulary - len(word to id) 


78 return train data, valid data, test data, vocabulary 


81 def ptb producer(raw data, batch size, num steps, name-None): 

97 Raises: 

98 tf.errors.InvalidArgumentError: if batch size or num steps are too high. 
99 WW 

100 with tf.name scope(name, "PTBProducer", [raw data, batch size, num stepsl): 
101 raw data = tf.convert to tensor(raw data, name-"raw data", dtype-tf.int32) 


103 data len - tf.size(raw data) 

104 batch len - data len // batch size 

105 data - tf.reshape(raw data[0: batch size * batch len], 
106 [batch size, batch lenl) 


108 epoch size - (batch len - 1) // num steps 

109 assertion = tf.assert positive ( 

110 epoch size, 

111 message="epoch size == 0, decrease batch size or num steps") 
112 with tf.control dependencies ( [assertion] ): 


113 epoch size = tf.identity(epoch size, name="epoch size") 
114 
115 i = tf.train.range input producer (epoch size, shuffle=False) .dequeue () 


116 x = tf.strided slice(data, [0, i * num steps], 

117 [batch size, (i + 1) * num steps]) 

118 x.set shape([batch size, num steps]l) 

119 y = tf.strided slice(data, [0, i * num steps + 1], 
120 [batch size, (i + 1) * num steps + 11) 

121 y.set shape([batch size, num steps]l) 

122 return x, y 


28 ~ 30 行 ， 读 文件 里 的 数据 ， 把 "\n" 换 行 符 换 成 "<eos>"， 返 回 所 有 出 现 的 单词 列表 。 

33 ~ 42 行 ， 给 每 个 单词 对 应 一 个 唯一 id。 

45~47 行 ， 把 文件 里 的 单词 变 成 对 应 的 id。 

50~ 78 行 ， 返 回 训练 、 验 证 、 测 试 数据 集 (单词 变 成 对 应 jd 之 后 的 结果 ) 和 文件 里 出 现 的 词汇 总 数 。 


81 ~ 122 行 ， 把 数据 和 其 对 应 的 标签 分 成 若干 个 batch 返 回 。 


运行 方式 : 


python ptb word lm.py --data path data 


ULF Tail BARNNIVA T , SESAME, tBIEHEDRIESEDJUREXZJESBRHUSEIJSE (UT —. SA, 
训练 的 时 候 把 文本 丢 给 它 让 它 先 去 “学 习 ”， 然 后 它 束 会 以 训练 样本 的 “风格 ”或 “口吻 ”输出 一 段 文 字 。 


8.5.2 ”利用 RNN 学 习 莎 士 比 亚 剧本 


我 们 给 一 段 莎士比亚 戏剧 的 剧本 让 RNN 去 学 习 []: 


PANDARUS : 

Alas, I think he shall be come approached and the day 
When little srain would be attain'd into being never fed, 
And who is but a chain and subjects of his death, 

I should not sleep. 


Second Senator: 

They are away this miseries, produced upon my soul, 
Breaking and strongly should be buried, when I perish 
The earth and thoughts of many states. 


DUKE VINCENTIO: 
Well, your wit is in the care of side and that. 


Second Lord: 

They would be ruled after this chamber, and 

my fair nues begun out of the fact, to be conveyed, 
Whose noble souls I'll have the heart of the wars. 


Clown: 
Come, sir, I will make did behold your worship. 


VIOLA: 
TLL drink xb. 


它 会 帮 你 生成 这 样 的 会 话 出 来 : 


VIOLA: 

Why, Salisbury must find his flesh and thought 
That which I am not aps, not a man and in fire, 
To show the reining of the raven and the wars 


To grace my hand reproach within, and not a fair are hand, 


That Caesar and my goodly father's world; 

When I was heaven of presence and our fleets, 

We spare with hours, but cut thy council I am great, 
Murdered and by thy master's ready there 

My power to give thee but so much as hell: 

Some service in the noble bondman here, 

Would show him to her wine. 


KING LEAR: 

O, if you were a feeble sight, the courtesy of your law, 
Your sight and several breath, will wear the gods 

With his heads, and my hands are wonder'd at the deeds, 
So drop upon your lordship's head, and your opinion 
Shall be against your honour. 


8.5.3 ”利用 RNN 学 习 维基 百科 


此 外 ，RNN 同 样 可 以 用 于 生成 一 段 维基 百科 格式 的 文本 内 容 ， 当 然 前 提 是 你 要 用 维基 百科 的 内 容 来 训 
这 样 的 维基 百科 内 容 : 


练 它 。 例 如 ， 生 成 一 


Naturalism and decision for the majority of Arab countries' capitalide was 
grounded 

by the Irish language by [[John Clair]], [[An Imperial Japanese Revolt]], 
associated 

with Guangzham's sovereignty. His generals were the powerful ruler of the 
Portugal 

in the [[Protestant Immineners]], which could be said to be directly in Cantonese 

Communication, which followed a ceremony and set inspired prison, training. The 

emperor travelled back to [[Antioch, Perth, October 25|21]] to note, the Kingdom 

of Costa Rica, unsuccessful fashioned the [[Thrales]], [[Cynth's Dajoard]], known 

in western [[Scotland]], near Italy to the conquest of India with the conflict. 

Copyright was the succession of independence in the slop of Syrian influence that 

was a famous German movement based on a more popular servicious, non-doctrinal 

and sexual power post. Many governments recognize the military housing of the 

[[Civil Liberalization and Infantry Resolution 265 National Party in Hungary]], 

that is sympathetic to be to the [[Punjab Resolution] ] 

(PJS) [http://www.humah.yahoo.com/guardian. 

cfm/7754800786d17551963s89.htm Official economics Adjoint for the Nazism, 
Montgomery 

was swear to advance to the resources for those Socialism's rule, 

was starting to signing a major tripad of aid exile.]] 


甚至 是 生成 一 段 代码 : 


<page> 
<title>Antichrist</title> 
<id>865</id> 
«revision» 
<id>15900676</id> 


<timestamp>2002-08-03T18:14:12Z</timestamp> 
¿dontributors 
<username>Paris</username> 
<id>23</id> 
</contributor> 
<minor /> 
<comment>Automated conversion</comment> 
«text xml:space="preserve">#REDIRECT [[Christianity] ]</text> 
</revision> 


</page> 


这 个 事例 也 被 很 多 博客 、 参 考 书 大 量 引 用 ， 足 见 其 有 着 怎样 的 代表 性 和 上 典型 性 。 


不 过 看 到 这 里 估计 不 少 程序 员 朋 友 会 消 梁 光一 闵 一 一 这 机 器 人 要 是 真 的 都 学 写 代 码 了 ， 我 们 是 不 是 都 要 失业 了 ? 从 理论 上 
来 咒 ， 如 果真 的 给 机 器 人 足够 多 的 需求 描述 和 程序 代码 ， 机 器 人 区 怕 真 的 能 够 写 出 高 质量 的 代码 来 ， 而 且 速 度 极 快 (一 秒 钟 几 十 
MB 上 百 MB 的 输出 ) 。 但 是 我 从 来 不 罕 张 这 样 的 事情 ， 这 种 机 器 代替 人 的 事情 在 人 类 友 展 史上 一 直 都 是 让 人 又 爱 又 恨 的 ,不 是 
吗 ? 每 次 代 蔡 都 会 止 人 从 繁重 、 重 复 、 低 水 平 的 劳动 中 逐步 解放 出 来 ， 从 而 进一步 让 人 有 更 多 的 时 间 去 从 事 高 档次 的 劳动 和 享受 
生活 。 人 类 的 智慧 到 现在 为 止 仍 然 是 得 天 独 厚 的 一 种 神奇 的 存 企 ， 在 相当 长 的 时 间 内 都 不 太 可 能 找到 蔡 代 品 。 人 工 智 能 再 历 害 ， 
既然 是 人 造 出 来 的 ， 那 么 人 类 束 有 足够 的 能 力 去 制约 它 ， 扬 长 避 短 地 使 用 它 ， 让 它 为 我 们 服务 。 


[1] 3) A Á http:/ /karpathy.github.io/2015/05/21 /rnn-effectiveness/ o 


8.6 ” 买 跤 案例 一 一 聊天 机 器 和 人 


接 下 来 这 个 RNN 的 案例 看 上 去 残 更 有 趣 一 一 聊天 机 器 人 。 


聊天 机 器 人 应 该 说 是 一 类 机 器 人 的 统称 了 ， 这 种 机 器 的 作用 是 可 以 通过 与 用 户 的 一 问 一 管 的 对 话 来 完成 一 轮 或 者 多 轮 次 的 对 
话 内 容 。 基 于 这 样 一 种 形式 ， 在 很 多 领域 它 都 会 有 用 武之 地 。 例 如 在 一 些 类 似 维基 目 科 这 样 的 词 条 解释 性 内 容 服务 商 ， 融 会 考虑 
用 这 种 机 器 人 来 代 著 讲解 员 为 用 户 提供 一 问 一 答 的 讲解 方式 。 在 很 多 大 型 公司 的 后 台 是 有 着 巨 量 的 客服 工作 内 容 的 ， 在 这 样 一 个 
重复 回答 场景 占据 相当 比例 的 场合 下 ， 不 少 公司 都 越 来 越 倾向 于 使 用 聊天 机 器 人 来 代替 人 工 客 服 进 行 工 作 。 我 们 先 来 看 这 个 工 


LI Conchylicultor / DeepQA © Watch> | 51 $t Star 


<> Code (1) Issues 43 i^ Pull requests 4 [l| Projects © EE] Wiki 4~ Pulse lli Graphs 


My tensorflow implementation of “A neural conversational model", a Deep learning based chatbot 


chatbot deep-learning tensorflow seq2seq 


Kp 165 commits p 2 branches © 0 releases 43 10 contributors sfs Apache-2.0 


它 在 GitHub 上 有 533 个 赞 ， 是 个 比较 靠 谱 的 Sequence-to-Sequence 生 成 模型 ， 地 址 
f£https://github.com/Conchylicultor/DeepQA, 文件 所 在 目录 为 DeepQA。 在 本 书 中 讲解 其 中 的 三 个 文件 内 


Dc 


容 ，chatbot.py、model.py、textdata.py。 


我 们 先 来 看 chatbot.py 文 件 : 


1 4 Copyright 2015 Conchylicultor. All Rights Reserved. 


34 from chatbot.model import Model 


35 

36 

37 class Chatbot: 

38 "n 

39 Main class which launch the training or testing mode 

40 "un 

41 

42 class TestMode: 

43 """ Simple structure representing the different testing modes 

44 "un 

45 ALL = 'all' 

46 INTERACTIVE = 'interactive' # The user can write his own questions 

47 DAEMON = 'daemon' # The chatbot runs on background and can regularly be 
called to predict something 

48 

49 def init (self): 

Au. mus 

Sl. 7*9 


52 4 Model/dataset parameters 

53 self.args = None 

54 

55 # Task specific object 

56 self.textData = None # Dataset 

57 self.model = None # Sequence to sequence model 

56 

59 # TensorFlow utilities for convenience saving/logging 
60 self.writer = None 

61 self.saver = None 


62 self.modelDir = '' # Where the model is saved 
63 self.globStep = 0 # Represent the number of iteration for the current model 
64 


65 # TensorFlow main session (we keep track for the daemon) 
66 self.sess = None 


67 

68 # Filename and directories constants 
69 self.MODEL DIR BASE = 'save/model' 
70 self.MODEL NAME BASE - 'model' 

71 self.MODEL EXT = '.ckpt' 

72 self.CONFIG FILENAME = 'params.ini' 
73 self.CONFIG VERSION = '0.4' 


74 self.TEST IN NAME = 'data/test/samples.txt' 


75 self.TEST OUT SUFFIX = ' predictions.txt' 


76 self.SENTENCES PREFIX = ['Q: ', 'A: '] 
Yu 

154 

155 def main(self, args-None): 


self.loadModelParams() # Update the self.modelDir and self.globStep, for now, 


not used when loading Model (but need to be called before _getSummaryName) 


self.textData = TextData(self.args) 


if self.args.createDataset: 
print ('Dataset created! Thanks for using this program!) 


return # No need to go further 


# Prepare the model 
with tf.device(self.getDevice()): 
self.model - Model(self.args, self.textData) 


H Saver/summaries 
self.writer - tf.summary.FileWriter(self. getSummaryName()) 


self.saver - tf.train.Saver(max to keepz200) 


4 Running session 

self.sess = tf.Session(config-tf.ConfigProto( 

allow soft placement-True, # Allows backup device for non GPU-available 
operations (when forcing GPU) 

log device placement-False) # Too verbose ? 


) 4 TODO: Replace all sess by self.sess (not necessary a good idea) ? 


if self.args.debug: 
self.sess - tf debug.LocalCLIDebugWrapperSession(self.sess) 


self.sess.add tensor filter("has inf or nan", tf debug.has inf or nan) 


print ('Initialize variables...') 


self.sess.run(tf.global variables initializer () ) 


# Reload the model eventually (if it exist.), on testing mode, the models 
are not loaded here (but in predictTestset) 
if self.args.test != Chatbot.TestMode.ALL: 


self.managePreviousModel (self.sess) 


# Initialize embeddings with pre-trained word2vec vectors 
if self.args.initEmbeddings: 
print("Loading pre-trained embeddings from GoogleNews-vectors- 


negative300.bin") 


217 self.loadEmbedding(self.sess) 


218 

219 if self.args.test: 

220 if self.args.test == Chatbot.TestMode.INTERACTIVE: 
221 self.mainTestInteractive(self.sess) 

222 elif self.args.test == Chatbot.TestMode.ALL: 


223 ‘DEINE (Start. predicting, ..«*) 
224 self.predictTestset (self.sess) 
225 print ('All predictions done') 


226 elif self.args.test == Chatbot.TestMode.DAEMON: 

227 print ('Daemon mode, running in background...') 

228 else: 

229 raise RuntimeError('Unknown test mode: {}'.format(self.args.test)) # 


Should never happen 


230 else: 

231 self.mainTrain(self.sess) 

PAL DE. 

233 if self.args.test !- Chatbot.TestMode.DAEMON: 


234 self.sess.close() 


235 print("The End! Thanks for using this program") 


237 def mainTrain(self, sess): 
245 self.textData.makeLighter(self.args.ratioDataset) # Limit the number of 


training samples 

247 mergedSummaries = tf.summary.merge all() # Define the summary operator 
(Warning: Won't appear on the tensorboard graph) 

248 if self.globStep -- 0: 4 Not restoring from previous run 

249 self.writer.add graph(sess.graph) # First time only 

251 4 If restoring a model, restore the progression bar ? and current batch ? 


253 print ('Start training (press Ctrl+C to save and exit)...') 


255 try: d If the user exit while training, we still try to save the model 


256 for e in range(self.args.numEpochs): 


2254 

258 print () 

259 print ("----- Epoch {}/{} ; (lr={}) ----- ".format(e + 1, self.args. 
numEpochs, self.args.learningRate) ) 

260 

261 batches = self.textData.getBatches() 

262 

263 # TODO: Also update learning parameters eventually 

264 


265 tic = datetime.datetime.now() 


266 for nextBatch in tqdm(batches, desc="Training"): 
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348 


4 Training pass 


ops, feedDict = self.model.step(nextBatch) 


assert len(ops) == 2 # training, loss 
_, loss, summary = sess.run(ops + (mergedSummaries,), feedDict) 
self.writer.add summary (summary, self.globStep) 


self.globStep += 1 


# Output training status 

if self.globStep $ 100 == 0: 

perplexity = math.exp (float (loss)) if loss < 300 else float ("inf") 
tqdm.write ("----- Step $d -- Loss $.2f -- Perplexity $.2f" % (self. 
globStep, loss, perplexity)) 


# Checkpoint 


if self.globStep $ self.args.saveEvery == 0: 
self. saveSession(sess) 
toc - datetime.datetime.now() 


print ("Epoch finished in {}".format ( 

toc - tic)) # Warning: Will overflow if an epoch takes more than 24 hours, 
and the output isn't really nicer 

except (KeyboardInterrupt, SystemExit): # If the user press Ctrl+C while 
testing progress 


print ('Interruption detected, exiting the program...') 


self. saveSession(sess) # Ultimate saving before complete exit 


def mainTestInteractive(self, sess): 

""" TrYy predicting the sentences that the user will enter in the console 
Args: 

sess: The current running session 

"nn 

# TODO: If verbose mode, also show similar sentences from the training 
set with the same words (include in mainTest also) 

# TODO: Also show the top 10 most likely predictions for each predicted 
output (when verbose mode) 

# TODO: Log the questions asked for latter re-use (merge with test/ 
samples.txt) 


print('Testing: Launch interactive mode: ') 

print (**) 

print ('Welcome to the interactive mode, here you can ask to Deep Q&A the 
sentence you want. Don\'t have high ' 

'expectation. Type \'exit\' or just press ENTER to quit the program. Have 


fun, "') 


349 while True: 
350 question = input(self.SENTENCES PREFIX[0] ) 


351 if question == '' or question == 'exit': 

352 break 

325: 

354 questionSeq = [] # Will be contain the question as seen by the encoder 
355 answer = self.singlePredict (question, questionSeq) 


356 if not answer: 
357 print('Warning: sentence too long, sorry. Maybe try a simpler sentence. '!') 


358 continue # Back to the beginning, try again 


360 print('{}{}'.format(self.SENTENCES PREFIX[1], self.textData. 


sequence2str (answer, clean-True))) 


362 if self.args.verbose: 
363 print (self.textData.batchSeq2str(questionSeg, clean=True, reverse=True) ) 


364 print (self.textData.sequence2str (answer) ) 


366 print () 


这 个 文件 的 内 容 确 实 有 点 元 长 ， 有 657 行 之 多 ， 不 过 其 中 一 些 封装 过 的 与 主要 流程 关系 不 大 的 内 容 我 们 已 经 和 前 面 的 内 容 一 
样 做 了 省 略 处 理 。 


155 行 ， 程 序 入 口 函 数 。 
165 行 ， 获 取 程 序 运 行 参数 。 
172 行 ， 如 果 有 已 经 保存 的 模型 文件 ， 束 重用 之 前 模型 文件 中 对 当前 模型 训练 有 用 的 参数 。 


174 行 ， 准 备 训 练 数据 读 文件 ， 一 行 输入 ， 下 一 行为 其 对 应 输出 ， 每 行 再 做 分 词 ， 每 个 单词 有 唯一 ID， 每 个 ID 对 应 一 个 唯一 
Fin]. 


185 ~ 186 行 ， 在 指定 设备 上 运行 初始 化 模型 。 

215 ~ 217 行 ， 如 果 有 已 经 训练 好 的 word2vec 模 型 就 用 。 
219 ~ 236 行 ， 是 以 测试 模型 方式 运行 还 是 训练 模型 。 
237 行 ， 进 行 模型 训练 。 

245 行 ， 暂 时 没 用 。 

256 行 ， 开 始 训 | 练 循环 。 

261 行 ， 获 取 一 轮训 练 所 有 batch 数 据 。 

266 行 ， 循 环 每 次 取 一 个 batch 数 据 。 


270 行 ， feed forward, 


文件 model.py 如 下 : 


1 4 Copyright 2015 Conchylicultor. All Rights Reserved. 


98 
29 
100 


101 
102 
103 
104 
105 


return tf.matmul(X, self.W) + self.b 


class Model: 


self.textData = textData # Keep a reference on the dataset 
self.args = args # Keep track of the parameters of the model 
self.dtype = tf.float32 


# Placeholders 

self.encoderiInputs = None 

self.decoderInputs = None # Same that decoderTarget plus the <go> 
self.decoderTargets = None 


self.decoderWeights = None # Adjust the learning to the target sentence size 


# Main operators 

self.lossFct = None 

self.optOp = None 
self.outputs = None # Outputs of the network, list of probability for 
each words 


# Construct the graphs 
self .buildNetwork () 


def buildNetwork (self): 


outputProjection = None 

# Sampled softmax only makes sense if we sample less than vocabulary size. 
if 0 < self.args.softmaxSamples < self.textData.getVocabularySize(): 
outputProjection = ProjectionOp( 

(self.args.hiddenSize, self.textData.getVocabularySize()), 

scope='softmax projection', 

dtype=self.dtype 

) 


def sampledSoftmax(labels, inputs): 
labels = tf.reshape(labels, [-1, 1]) # Add one dimension (nb of true 


classes, here 1) 


# We need to compute the sampled softmax loss using 32bit floats to 
4 avoid numerical instabilities. 

localWt = tf.cast(tf.transpose(outputProjection.W), tf.float32) 
localB - tf.cast(outputProjection.b, tf.float32) 

localInputs = tf.cast(inputs, tf.float32) 
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return tf.cast ( 

tf.nn.sampled softmax loss ( 

localWt, # Should have shape [num_classes, dim] 

localB, 

labels, 

localInputs, 

self.args.softmaxSamples, # The number of classes to randomly sample per 
batch 

self.textData.getVocabularySize()), # The number of classes 

self.dtype) 


# Creation of the rnn cell 

def create rnn cell(): 

encoDecoCell = tf.contrib.rnn.BasicLSTMCell( 4 Or GRUCell, LSTMCell (args. 
hiddenSize) 

self.args.hiddenSize, 

) 

if not self.args.test: # TODO: Should use a placeholder instead 


encoDecoCell = tf.contrib.rnn.DropoutWrapper ( 
encoDecoCell, 
input keep prob=1.0, 


output keep prob-self.args.dropout 

) 

return encoDecoCell 

encoDecoCell - tf.contrib.rnn.MultiRNNCell( 
[Create rnn cell() for in range(self.args.numLayers)], 


) 


# Network input (placeholders) 


with tf.name scope('placeholder encoder') : 


self.encoderInputs = [tf.placeholder(tf.int32, [None, ]) for D in 
range(self.args.maxLengthEnco)] # Batch size * sequence 
length * input dim 

with tf.name scope('placeholder decoder'): 


self.decoderInputs = [tf.placeholder(tf.int32, [None, ], name='inputs') 


for | in range(self.args.maxLengthDeco)] # Same 


sentence length for input and output (Right ?) 
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self.decoderTargets = [tf.placeholder(tf.int32, [None, ], name='targets') 


for in range(self.args.maxLengthDeco)] 


self.decoderWeights = [tf.placeholder(tf.float32, [None, ], 
name-'weights') for _ in range(self.args.maxLengthDeco)] 
4 Define the network 


# Here we use an embedding model, it takes integer as input and convert 
them into word vector for 


# better word representation 
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decoderOutputs, states = tf.contrib.legacy seq2seq.embedding rnn seq2seq( 
self.encoderInputs, # List«[batch-?, inputDim=1]>, list of size args. 
maxLength 

self.decoderInputs, # For training, we force the correct output (feed 
previous-False) 

encoDecoCell, 

self.textData.getVocabularySize(), 

self.textData.getVocabularySize(), # Both encoder and decoder have the 
same number of class 


embedding size-self.args.embeddingSize, # Dimension of each word 


output projection-outputProjection.getWeights() if outputProjection else 
None, 
feed previous-bool(self.args.test) # When we test (self.args.test), we 


use previous output as next input (feed previous) 


) 


if self.args.test: 
if not outputProjection: 


self.outputs = decoderOutputs 


else: 
self.outputs - [outputProjection(output) for output in decoderOutputs] 
# TODO: Attach a summary to visualize the output 


4 For training only 

else: 

4 Finally, we define the loss function 

self.lossFct = tf.contrib.legacy seq2seq.sequence loss ( 
decoderOutputs, 

self.decoderTargets, 

self.decoderWeights, 

self.textData.getVocabularySize(), 
softmax loss function- sampledSoftmax if outputProjection else None # If 
None, use default SoftMax 

) 


tf.summary.scalar('loss', self.lossFct) # Keep track of the cost 


4 Initialize the optimizer 

opt = tf.train.AdamOptimizer( 

learning rate=self.args.learningRate, 
betal=0.9, 

beta2=0.999, 

epsilon-1e-08 

) 

self.optOp = opt.minimize(self.lossFct) 


def step(self, batch): 


224 feedDict = {} 
225 ops = None 


227 if not self.args.test: # Training 

228 for i in range(self.args.maxLengthEnco) : 

229 feedDict [self.encoderInputs[i]] = batch.encoderSegs [i] 
230 for i in range(self.args.maxLengthDeco) : 

231 feedDict[self.decoderInputs[il] = batch.decoderSegs [i] 
232 feedDict [self.decoderTargets[i]] = batch.targetSegs [i] 
233 feedDict [self.decoderWeights[i]] = batch.weights [i] 


235 ops = (self.optOp, self.lossFct) 
236 else: # Testing (batchSize == 1) 
237 for i in range(self.args.maxLengthEnco) : 


238 feedDict[self.encoderInputs[i]] = batch.encoderSeqs[il 


239 feedDict[self.decoderInputs[0]] = [self.textData.goToken] 
240 

241 ops = (self.outputs,) 

242 


243 # Return one pass operator 


244 return ops, feedDict 


79 ~ 100 行 ， 初 始 化 网 络 模型 参数 。 


sequence-to-sequence 模 型 ， 包 含 2 个 RNN 网 络 : encoder 和 decoder， 它 们 可 以 共享 weights， 或 者 使 用 不 同 的 参数 集 


: encoder input: ABC; 
: decoder input: <go>WXYZ; 


- decoder output 4# decoder targets: WXYZ<eos>. 


W X Y Z <eos> 
A B C <go> W X bd £ 


105 ~ 212 行 ,创建 网 络 。 
142 ~ 152 行 ， 创 建 LSTM 单 元 并 添加 dropout。 


153 ~ 155 行 ， 创 建 多 层 LSTM。 


159~ 16517, encoder input, decoder input, decoder output, decoder weights 占 位 符 。 


170 ~ 179 行 ， 定 义 sequence-to-sequence 网 络 。 


SSS 
A A 


| ism | LSTM: 


out 


LSTM， 


面 这 张 图 是 两 个 三 层 LSTM 网 络 ， 左 边 三 层 ， 右 边 三 层 ， 左 右 网 络 结构 一 样 。LSTM3 in 的 输出 到 LSTM3 _ out 的 输出 再 使 
用 全 连接 ，LSTM2 _ out 每 层 网 络 需要 接收 对 应 层 LSTM1_in 的 输出 。 


我 们 的 网 络 使 用 的 是 两 个 两 层 LSTM 网 络 ， 其 他 和 上 图 一 样 。 


- output, projection: 如 果 你 的 训练 vocabularies 很 大 ， 那 么 每 次 LSTM 的 输出 就 是 一 个 很 大 的 tensor 包 含 每 种 可 能 性 的 概率 。 使 
用 这 个 参数 你 可 以 每 次 只 算 一 部 分 vocabulaties 在 每 种 可 能 性 上 的 概率 ， 最 后 再 映射 完整 的 大 tensot 上 。 


: feed previous: False，decodet 总 是 使 用 decoder_ inputs，True，decodet 只 使 用 第 一 个 decoder_inputs 元 素 ， 之 后 的 每 次 decodet 


input 都 是 使 用 前 一 次 decodet 的 输出 结果 。 
179 行 ，feed previous 设 置 成 False 表 示 。 
196 ~ 202 行 ， 定 义 loss 国 数 。 
206~ 212 行 ， 使 用 AdamOptimizer 优 化 器 最 小 化 loss。 
214~ 244 行 ， 填 充 占 位 符 ， 返 回 优 化 器 Op。 
请 注意 ， 在 使 用 这 个 聊天 机 器 人 之 前 需要 安 妆 一 个 叫做 nltk 的 工具 : 


python3 -m nltk.downloader punkt 
运行 万 式 (训练 ) : 
python3 main.py 


请 注意 ， 这 段 代 码 是 用 Python 3.x 版 本 来 书写 的 ， 所 以 在 “ 玩 变 ” 它 之 前 请 确定 自己 的 Python 版 本 为 3.5 或 者 3.6 版 本 。 


data@ubuntu:~S$ python3.6 

Python 3.6.0 (default, Mar 28 2017, 20:41:29) 

[GCC 5.4.0 20160609] on linux 

Type "help", "copyright", "credits" or "license" for more information. 


>>> 


安装 方法 可 以 参考 后 面 的 附录 部 分 ， 也 很 简单 。 
在 训练 好 模型 之 后 ， 如 果 想 开始 使 用 或 者 说 测试 这 个 聊天 机 器 人 ， 需 要 运行 : 


python3 main.py -test interactive 


最 后 只 强调 一 点 吧 ， 束 是 聊天 机 器 人 训练 的 时 候 是 严重 依赖 话 术 库 的 。 换 言 之 ， 你 拿 臭 剧 字幕 作为 训练 样本 给 机 器 人 ， 它 学 
出 来 天 是 美剧 翻译 腔 ; 你 拿 《 红 楼 梦 》 给 它 学 ， 它 学 出 来 整 是 《红楼 梦 》 风 格 ;， 你 拿 一 本 婚姻 法 和 一 本 刑法 给 它 学 ， 它 学 出 来 下 
是 法 律 条 文 的 陈 词 ….. 忆 之， 这 种 机 器 人 对 于 场景 是 十 分 敏感 的 ， 在 应 用 中 这 一 点 要 在 开始 训练 之 前 先 考 虑 好 ， 以 免 学 出 来 一 个 
除了 打 金 束 是 打 驹 的 糊涂 机 器 人 。 


8.7 ME 
RNN 从 20 世 纪 80 年 代 第 一 次 作为 一 种 新 的 网 络 连 接 结构 被 提 以 来 经 过 了 三 十 多 年 的 友 展 ， 目 前 的 RNN 理 论 层面 的 突破 并 不 
快 。 在 1997 年 提出 的 LSTM 网 络 算法 直到 今天 还 是 工业 界 最 常用 的 算法 模型 。 


在 各 公司 训练 的 聊天 机 器 人 及 其 变种 也 是 以 深度 LSTM 网 络 为 基础 的 。 应 该 说 在 近期 相关 的 “多 对 一 ”“ 一 对 多 ”“ 多 对 
多 ”的 应 用 场景 仍然 是 以 LSTM 作 为 首选 。 而 且 由 于 这 种 网 络 的 复杂 度 很 高 ， 训 练 的 过 程 中 仍然 是 以 相对 固定 的 场景 、 具 象 性 比 
较 强 的 场景 作为 先决 条 件 比 较 好 。 尽 量 不 要 做 一 些 适 配 性 强 、 兼 容 性 广 的 机 器 人 模型 ， 往 往 效 果 很 不 如 人 总 。 


请 注意 ， 这 种 具象 性 强 和 场景 固定 的 要 求 不 仅仅 是 在 LSTM 网 络 模型 中 才 有 ， 在 其 他 的 应 用 场景 中 也 是 希望 边界 划 定 清晰 、 
功能 单一 ， 这 样 才 比 较 容 易 实现 应 用 效果 。 这 样 的 局 限 性 可 以 认为 是 样本 的 缺乏 所 市 来 的 问题 ， 也 是 理论 层面 没有 本 质 性 突破 之 
前 深度 学 习 所 面临 的 最 严重 的 问题 。 
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随 着 人 们 对 于 神经 网 络 技 术 的 不 断 研 究 和 尝试 ， 每 年 都 会 诞生 很 多 新 的 网 络 结构 或 模型 。 这 些 模 型 大 都 有 着 经 典 神经 网 络 的 
寺 点 ， 但 是 义 会 有 所 变化 。 你 说 它们 是 杂交 也 好 ， 是 变种 也 去， 总 之 针对 神经 网 络 创新 的 各 种 办 法 那 真 叫 大 开 脑 洞 。 而 这 些 变 化 
通常 影响 的 都 是 使 得 这 些 网 络 在 某 些 分 支 领 域 或 者 场景 下 的 表现 更 为 出 色 (虽然 我 们 期 望 网 络 的 泛 化 性 能 够 在 所 有 的 领域 都 有 好 
的 表现 ) 。 深 度 残 差 网 络 (deep residual network) 就 是 众多 变种 中 的 一 个 代表 ， 而 且 在 某 些 领域 确实 效果 不 错 ， 例 如 目标 检 
测 (object detection) 。 


9.1 ”应 用 场景 


对 于 传统 的 深度 学 习 网 络 应 用 来 说 ， 我 们 都 有 这 样 一 种 体会 ， 那 束 是 网 络 越 深 所 能 学 到 的 东西 束 越 多 。 当 然 收 合 速 度 同 时 也 
束 越 慢 ， 训 练 时 间 越 长 ， 然 而 深度 到 了 一 定 程度 之 后 就 会 友 现 有 一 些 越 往 深 学 习 率 越 低 的 情况 。 深 度 残 舌 网 络 的 设计 束 是 为 了 殉 
服 这 种 由 于 网 络 深度 加 深 而 产生 的 学 习 率 变 低 、 准 确 率 无 法 有 效 提升 的 问题 ， 也 称 作 网 络 的 退化 问题 。 甚 至 在 一 些 场景 下 ， 网 络 
层 数 的 增加 反而 会 降低 正确 率 。 


关于 深度 残 差 网 络 的 介绍 资料 不 算 多 ， 至 少 比 起 传统 的 BP、CNN、RNN 网 络 的 介绍 资料 就 少 得 多 了 ， 我 这 边 参考 的 是 何 恺 


明 先生 在 网 上 公开 的 一 个 介绍 性 资料 “Deep Residual Networks——Deep Learning Gets Way Deeper” , [] 
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说 到 对 比 传统 的 卷 积 神经 网 络 在 做 分 类 器 的 时 候 ， 在 加 深 网 络 层 数 的 过 程 中 是 会 观察 到 一 些 出 乎 意料 的 现象 的 。 例 如 在 
CIFAR-10 项 目 上 使 用 56 层 的 3x 3 着 积 核 的 网 络 其 错误 率 无 论 是 训练 集 上 还 是 验证 集 上 ， 都 高 于 20 层 的 卷 积 网 络 ， 这 就 旭 巡 了 。 
通常 为 了 让 网 络 学 到 更 多 的 东西 ， 是 可 以 通过 加 深 网 络 的 层 数 ， 让 网 络 具备 更 高 的 VC 维 这 样 的 手段 来 实现 的 。 但 眼前 的 事实 束 
是 这 样 ， 加 到 >6 层 的 时 候 ， 其 识别 锋 误 率 要 比 在 20 层 的 时 候 更 加 糟糕 。 


这 种 现象 的 本 质问 题 是 由 于 出 现 了 信息 丢失 而 产生 的 过 拟 合 问题 。 这 些 图 片 在 经 过 多 层 卷 积 的 采样 后 在 较 深 的 网 络 层 上 会 出 
现 一 些 奇怪 的 现象 ， 瓯 是 明明 是 不 同 的 图 片 类 别 ， 但 是 却 产 生 了 看 上 去 比较 近似 的 对 网 络 的 刺激 效果 。 这 种 差距 的 减 小 也 残 使 得 


最 后 的 分 类 效果 不 会 太 理想 ， 所 以 解决 思路 应 该 是 尝试 着 使 它们 引入 这 些 刺激 的 舌 异 性 和 解决 泛 化 能 力 为 主 。 所 以 才 会 考虑 较 大 


尺度 地 改变 传统 CNN 网 络 的 结构 ， 而 结果 也 没有 让 我 们 失望 ， 新 型 的 深度 残 差 网 络 在 图 像 处 理 方面 表现 出 来 的 优秀 特性 确实 令 
我 们 眼前 一 亮 。 
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到 目前 为 止 ， 在 图 像 分 类 (image classification) 、 对 象 检测 (object detection) , 18V 238 (semantic 
segmentation) 等 领域 的 应 用 中 ， 深 度 残 差 网 络 都 表现 出 了 民 好 的 效果 。 上 面 这 几 张 图 都 是 所 试用 深度 残 关 网 络 在 一 张 图 片 中 
去 识别 具体 的 一 个 目标 ， 每 个 目标 的 属性 标注 是 基于 微软 的 COCO 数 据 集 ! 的 数据 标识 。 物 品 (A) 的 框图 上 还 标注 了 一 个 小 
数 ， 这 个 数字 束 是 概率 ， 或 者 称 确信 和 度 (precision) ， 指 模型 识别 这 个 物体 种 类 的 确信 度 。 我 们 能 看 人 到， 在 这 个 图 片 中 大 部 分 


物体 的 识别 还 是 非常 准确 的 。 


[1] Wak: http://icml.cc/2016/tutorials/icml2016_tutorial_deep_residual_networks_kaiminghe.pdf。 
[2] http://mscoco.org/, 4&4] COCO Dataset. 


深度 网 络 有 个 巨大 的 问题 ， 那 束 是 随 着 深度 的 加 深 ， 很 容易 出 现 梯度 消失 和 梯度 爆炸 的 问题 。 
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前 面 我 们 也 提 过 这 个 问题 ， 因 为 网 络 深度 太 大 所 以 残 差 传 播 的 过 程 在 层 与 层 之 间 求 导 的 过 程 中 会 进行 相 乘 去 加 ， 一 个 小 于 1 
或 一 个 大 于 1 的 数字 在 经 过 150 层 的 指数 著 加 束 会 变 得 很 大 或 者 很 小 ， 我 们 自己 手 算 一 下 也 能 算出 来 ，0.8 的 150 次 方 大 约 是 
2.9x10-13，1.2 的 150 次 方 大 约 是 7.5x1011， 这 两 种 情况 都 是 极为 严重 的 灾难 ， 任 何 一 种 都 会 导致 训练 劳 而 无 功 。 


* Plaint net 
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在 传统 的 平 网 络 (plain network) 中 ,一 层 的 网 络 的 数据 来 源 只 能 是 前 一 层 网 络 ， 束 像 上 图 这 样 ， 数 据 一 层 一 层 生 下流。 
对 于 卷 积 神经 网 络 来 说 ， 每 一 层 在 通过 卷 积 核 后 都 会 产生 一 种 类 似 有 损 压缩 的 效果 ， 可 想 而 知 在 有 损 压 缩 到 一 定 程度 以 后 ， 分 不 
清 条 原 本 清晰 可 辩 的 两 张 照 请 并 不 是 什么 意外 的 事情 。 这 种 行为 叫 有 损 压 缩 其 实 并 不 合适 ， 实 际 在 工程 上 我 们 称 之 为 降 采 样 
(downsampling) 一 一 殉 是 在 向 量 通过 网 络 的 过 程 中 经 过 一 些 滤 小 器 (filter) 的 处 理 ， 产 生 的 效果 融 是 让 输入 回 量 在 通过 降 
采样 处 理 后 具有 更 小 的 尺寸 ， 在 卷 积 网 络 中 弟 见 的 残 是 卷 积 层 和 池 化 层 ， 这 两 者 都 可 以 充当 降 采 样 的 功能 属性 。 主 要 目的 是 为 了 
避免 过 拟 合 ， 以 及 有 一 定 的 减少 运算 量 的 副作用 。 在 深度 残 关 网 络 中 ， 结 构 出 现 了 比较 明显 的 变化 。 


* Residual net 
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如 图 所 示 。 这 会 产生 什么 效果 呢 ? 信 单 说 就 是 前 面 层 的 较为 “清晰 ”一 些 的 向 量 数据 会 和 后 面 被 进一步 “有 损 压 缩 ” 过 的 数据 共 
同 作为 后 面 的 数据 输入 。 而 对 比 之 前 没有 加 过 这 个 “短路 ”设计 的 平 网 络 来 说 ,缺少 这 部 分 数据 的 参考 ， 本 身 是 一 种 信息 丢失 的 
现象 本 质 。 本 来 一 个 由 2 层 网 络 组 成 的 映射 天 系 我 们 可 以 称 之 为 F(x) 的 这 样 一 个 期 望族 数 来 拟 合 ， 而 现在 我 们 期 望 用 
H (x) =F (x) +x 来 拟 合 ， 这 本 身 束 引入 了 更 为 丰富 的 参考 信息 或 者 说 更 为 丰富 的 维度 (特征 值 ) 。 这 样 网 络 残 可 以 学 到 更 为 
FRAR. 


这 张 图 比较 了 三 种 网 络 的 深度 和 结构 特点 ，VGG-19、34 层 的 “ 平 网 络 ” 一 一 也 残 是 普通 34 层 的 CNN 网 络 ， 还 有 34 层 的 深 
度 残 差 网 络 。 
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在 深度 残 差 网 络 的 设计 中 通常 都 是 一 种 “力求 简洁 ”的 设计 方式 ， 只 是 单纯 加 深 网 络 ， 所 有 的 卷 积 层 几乎 都 采用 3x 3 的 卷 积 
核 ， 而 且 绝 不 在 隐藏 层 中 设计 任何 的 全 连接 层 ， 也 不 会 在 训练 的 过 程 中 考虑 使 用 任何 的 DropOut 机 制 。 以 2015 年 的 
ILSVRC&COCO Copetitions 为 例 ， 以 分 类 为 目的 的 深度 残 差 网 络 “ImageNet Classfication" 居然 能 够 达到 152 层 之 深 ， 也 算 
是 破 了 纪录 了 。 
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这 种 短路 层 引 入 后 会 有 一 种 有 趣 的 现象 ， 融 是 会 产生 一 个 非 单 平滑 的 正身 传递 过 程 。 我 们 看 xl+1 和 其 前 面 一 层 x| 的 天 系 是 纯 
粹 一 个 续 性 埃 加 的 关系。 如 果 进 一 步 推导 xl|+2 及 其 以 后 层 的 输出 会 友 现 展开 后 是 这 样 一 个 表达 陈 : 


“wa 


Xu Wp FQ) 
M 


Xo =X + POs) " - 
p e——— EE e, 


Xuz 7 X, + P(X) + F(xi4) 5x a CONV; 512. 77 he 


L-1 
$ =x, + F(x) 3x3conv,512 | — 
i o ll aa 


也 融 是 后 面 的 任何 一 层 XL 同 量 的 内 容 会 有 一 部 分 由 其 表面 的 某 一 层 X 续 性 贡献 。 
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好 ， 现 在 看 反 向 的 残疾 传递 ， 也 是 一 个 非常 平滑 的 过 程 。 这 是 刚才 我 们 看 到 的 某 层 输出 x| 的 浮 数 表达 式 


那么 残 差 我 们 定义 为 E (就 是 Loss) ， 应 该 有 
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生 单 谈 的 求 导 过 程 了 ， 这 里 残 是 用 链 了 式 法 则 可 以 直接 求 出 来 的 ， 很 简单 
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注意 这 个 地 万 ， 用 日 话 解 释 殉 是 任意 一 层 上 的 输出 XL 所 产生 的 残 差 可 以 传递 回 其 前 面 的 任意 一 层 的 上 上， 这 个 传递 的 过 程 是 
非常 “ 快 ”或 者 说 “直接 ”的 ， 那么 它 在 层 数 变 多 的 时 候 也 不 会 出 现 明显 的 效率 而 且 还 有 一 个 值得 注意 的 地 方 ， 后 面 这 项 
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面 来 解释 为 什么 深度 残 差 网 络 的 深度 可 以 允许 那么 深 ， 并 且 还 没有 出 现 令 人 恐惧 的 梯度 消失 问题 和 训练 效率 问题 。 
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补 元 说 明 一 下 ， 中 的 E 和 xl 在 这 里 泛 捐 某 两 个 不 同 层 之 间 的 天 系 ， 指 代 它 们 的 残 和 大 和 输出 值 。 大 家 请 注意 ， 在 
一 个 多 层 的 网 络 中 ， 每 一 层 我 们 都 可 以 认为 是 一 种 分 类 器 模型 ， 只 不 过 每 一 层 分 类 器 的 具体 分 类 仿 义 人 类 很 难 找到 确切 的 并 且 令 
人 信服 的 物理 解释 。 然 而 每 一 层 的 各 种 神经 元 在 客观 上 确实 充当 着 分 类 器 的 功能 ， 它 将 前 面 一 层 输 入 的 向 量 进行 采样 并 映射 为 新 


oy < 
的 向 量 空间 分 布 。 所 以 从 这 个 角度 去 解释 的 话 ，“ 277 777 可 以 看 成 指 代 任何 一 个 “断章取义 ”的 网 络 片段 也 没 问题 ， 也 就 不 
强调 这 个 损失 函数 一 定 是 由 最 后 一 层 传 到 前 面 某 一 层 去 的 了 。 


9.3 ”拓扑 解释 
除了 前 面 我 们 提 到 的 这 种 基于 网 络 各 层 函数 表达 式 的 解释 以 外 ， 深 度 残 差 网 络 的 学 习 能 力 强 、 有 好 的 性 能 表现 还 有 一 种 解 
释 ， 我 们 把 这 种 解释 可 视 化 一 下 。 
Building block 
Skip 
connection 


- 


esidual 
module 


短路 项 相当 于 像 上 图 这 样 把 所 有 的 一 个 一 个 网 络 短 接 了 过 去 ， 而 这 些 短 接 过 去 的 部 分 其 实 形成 了 新 的 拓扑 结构 。 


Building block 
Skip 
connection 


Residual 
module 


例如 网 网 的 f1 、f2、f3 这 三 个 网 络 通过 短 接 之 后 其 实 束 演变 成 了 右边 这 样 一 个 拓扑 结构 ， 我 们 可 以 清楚 地 看 到 ， 这 相当 于 是 
多 个 不 同 的 网 络 模 型 做 了 融合 或 并 联 。 将 前 面 的 向 量 信 息 通 过 多 个 不 同 的 分 类 器 模型 将 结构 反馈 到 后 面 去 。 而 疫 变 化 之 前 只 有 最 
下 面 的 一 条 串联 结构 ， 这 两 种 模型 的 不 同 正 是 造成 它们 学 习 能 力 不 同 的 关键。 


weight layer 
F(x) wate identity 


X 


weight layer 


H(x) = F(x) * x CE 
y relu 


Wi z= IER PAA Re TARIA MMe ET Maia t ShortCutabo ETALE REEE, SAE 
Keras 这 种 框架 中 友 现 它 提供 了 两 种 不 同 的 ShortCut 单 元 以 供 使 用 ,一 种 是 市 有 卷 积 项 的 ， 一 种 是 不 市 有 卷 积 项 的 。 


Y 


pool1 


res2a 


res2a relu 


res2a_branch2a 


— res2b branch2a 
bn2a_branch2a 
一 -一 bn2b branch2a 
scale2a_branch2a 
a a ene scale2b branch2a 
res2a_branch2a_relu 


res2b branch2a relu 


"esca_brancheb | res2b branch2b 
bn2a_branch2b bn2b branch2b 


 Scale2a branchzb Scale2b branch2b 
res2a branch2b relu 


res2b branch2b relu 


res2a branch1 res2a_branch2c res2b branch2c 
bn2a_branch’ bn2a_branch2c bn2b branch2c 


scale2a branch1 scale2a branch2c scale2b branch2c 


res2a res2b 


res2a_relu res2b relu 
Ee 


这 里 提 一 句 Keras，Keras 也 是 一 个 非常 好 的 深度 学 习 框 架 ,， 或 者 说 “过 子 ” 更 合适 。 它 提供 了 更 为 简洁 的 接口 格式 ， 能 
让 使 用 者 在 非常 短 的 代码 中 实现 很 多 模型 描述 信息 。 它 的 后 端 支 持 TensorFlow 和 Theano 两 种 框架 作为 后 台 实 现 
(backend) 。 在 TensorFlow 中 描述 很 复杂 的 过 程 ， 可 以 在 Keras 里 封装 地 非常 好 ， 所 以 在 实际 工作 中 笔者 也 经 常 使 用 
Keras "BR" 着 TensorFlow 去 做 工程 ， 代 码 可 读 性 会 好 很 多 。 大 家 有 兴趣 可 以 去 试 一 下 ， 本 书后 面 的 附录 也 提供 了 Keras 的 安 
Fe LISLE 
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天 于 深度 残 达 网络 的 实现 在 Github 上 有 很 多 人 都 上 传 过 ， 这 里 我 们 也 尝试 过 一 些 版 本 ， 例 如: 


https://github.com/ry/tensorflow-resnet 


https://github.com/raghakot/keras-resnet/blob/master/resnet.py 


前 者 还 可 以 从 网 上 下 载 一 个 Pretrained Model， 都 是 模型 制作 人 目 己 使 用 一 些 数 据 集训 练 的 一 些 模型 状态 。 我 们 可 以 认为 
它 算 是 具备 一 定 识别 能 力 的 “半成品 " 


Pretrained Model 


ublished Caffe pretrained model, run convert. 


ve output of convert.py: 


在 目 己 应 用 的 场景 中 ， 可 以 根据 需要 在 将 这 些 “ 半 成 品 ” 初 始 化 后 继续 用 一 些 数 据 集训 | 练 ， 使 其 更 能 适 配 目 己 所 指派 的 场 
景 。 这 种 方式 在 工程 中 也 很 多 见 ， 毕 葛 要 得 到 人 家 这 个 “半成品 ”的 水 平 也 要 目 己 花费 极 多 的 人 力 成 本 和 时 间 成 本 。 


何 恺 明 先 生 自己 也 公开 了 一 种 实现 方式 ， 地 址 在 https://github.comy/KaimingHe/deep-residual-networks， 不 过 是 在 
Caffe 上 实现 的 ， 有 兴趣 研究 Caffe 框 架 的 朋友 可 以 做 个 参考 。 具 体 的 代码 我 们 丈 不 展开 细 讲 了 。 


9.5 WME 


应 该 说 ， 残 舌 网 络 的 发 明 是 对 网 络 连 接 结构 的 又 一 种 有 益 的 尝试 ， 而 且 实 际 效果 还 确实 不 错 。 曾 经 有 人 间 过 我 ， 如 果 深 度 残 
郑 网 络 中 不 是 用 一 个 ShortCut 跳 过 两 个 卷 积 层 ， 而 是 跳 过 1 个 或 者 3 个 或 者 其 他 数量 会 有 什么 结果 。 


这 个 问题 很 难 回答 ， 但 是 问题 本 身 并 非 没有 意义 。 


首先 ， 跳 过 1 个 也 好 3 个 也 去， 每 一 种 不 同 的 链接 万 式 都 是 一 种 新 的 网 络 拓 扑 结 构 ， 有 着 不 同 的 分 类 能 力 。 由 于 神经 网 络 本 
身 的 构造 束 非 党 复杂 ， 经 过 这 样 的 拓扑 结构 改变 后 直接 讨论 两 种 具备 不 同 拓扑 结构 网 络 的 学 习 能 力也 束 比 较 困难 。 不 过 有 一 点 可 
以 确定 ， 那 束 是 网 络 友 生 类 似 “ 并 联 ” 的 情况 是 会 提高 网 络 本 身 学 习 的 容纳 能 力 的 。 至 于 在 哪个 场景 ， 有 多 大 程度 的 能 力 提高 ， 
需要 在 实验 中 不 断 坚 试 和 对 比 ， 从 而 忌 结 归纳 出 一 些 新 的 理论 成 果 。 所 以 其 实 理论 上 确实 不 能 排除 跳 过 1 个 或 者 3 个 层 来 做 短 接 
在 其 他 一 些 分 类 领域 会 有 更 好 的 效果 ， 这 需要 具体 的 实验 和 论证 过 程 。 现 在 国际 上 每 年 出 现 的 一 些 新 的 关于 网 络 结构 调整 的 论文 
也 都 是 基于 一 些 实验 而 归纳 出 来 的 理论 ， 虽 然 大 部 分 谈 不 上 什么 重大 突破 ， 不 过 科研 这 种 东西 总 要 有 一 个 积 量 要 为 质变 的 过 程 。 


我 倒是 认为 ， 大 家 在 工作 的 过 程 中 ， 一 方面 多 天 注 国 际 上 最 新 的 一 些 论文 和 实验 成 果 ， 一 方面 也 可 以 在 目 己 擎 握 的 理论 基础 
上 大 胆 提出 一 些 新 的 观点 并 进行 论证 尝试 。 这 同样 是 一 种 值得 鼓励 的 科研 态度 ， 也 是 得 到 经 验 的 好 万 法 。 


第 10 草 SABRI NAA REM 


说 到 受 限 玻 泉 效 曼 机 (restricted boltzmann machine, RBM) , 一定 会 有 人 问 “ 那 不 受 限 的 玻 尔 效 曼 机 ”是 哈 样 子 的 。 
不 受 限 的 玻 尔 兹 曼 机 肯定 是 有 的 ， 只 不 过 这 种 “不 受 限 ”的 玻 尔 效 曼 机 在 工程 上 实在 是 派 不 上 什么 用 场 ， 所 以 通常 就 机 器 学 习 领 
域 的 研究 来 说 ， 只 学 习 受 限 玻 尔 效 曼 机 的 原理 就 可 以 了 。 


10.1 结构 


咱们 先 来 看 看 这 种 RBM 的 结构 是 什么 样子 的 吧 。 


W 


7 , 
W nxm nxm 


参数 


样子 看 上 去 土 土 的 是 不 是 ， 比 我 们 前 面 看 的 BP、CNN、RNN 差 远 了 。 它 的 最 简化 模型 只 有 两 层 ， 一 层 叫 隐藏 层 (hidden 
E) ， 一 层 叫 可 视 化 层 (visible 层 ) 。 在 实际 工作 中 ，RBM 是 可 以 多 层 轩 加 在 一 起 工作 的 ， 不 过 我 们 只 看 这 个 最 简化 的 模型 
一 一 两 层 的 模型 ， 看 它 是 怎么 工作 

上 面 的 h1 到 hn 是 n 个 实数 ， 下 面 的 v1 到 vm 是 m 个 实数 ， 这 些 实数 都 是 0 到 1 之 间 的 数字 ， 它 们 各 自 组 成 了 一 个 h 向 量 和 一 个 v 
向 量 。 中 间 的 每 条 线 上 都 有 一 个 权重 ， 一 共有 mx n 个 权重 ， 也 就 是 一 个 nxn 的 w 和 矩阵。 上 面 的 隐藏 层 的 节点 上 写 了 c1 到 cn， 下 
面 的 可 视 化 层 的 节点 上 则 写 了 b1 到 bm， 它 们 分 别 表示 在 这 些 节点 上 所 形成 的 偏 置 值 。 也 就 是 说 ， 在 训练 的 时 候 会 有 这 样 一 个 映 
射 关系 : 


m 


p(h; =1|v)=0 2, "xv, +6 , p(v, -1|h)2o 2 w xh, +b 


i=] 
这 两 个 表达 式 看 上 去 不 大 友好 ， 下 面 我 们 用 日 话 解 释 一 下 。 


当 上 面 所 有 的 h 输 入 的 时 候 ，v1 和 h1 到 hn 这 n+1 个 证 点 实际 上 组 成 了 一 个 小 网 络 ， 整 个 h 向 量 和 v1 上 这 m 个 w 做 了 内 积 


| 
JQ- 

ERRE Fea tiot hawa, fei E—Tv1. EA, LIAM M lte 这 个 函数 ， 最 后 输出 v1。 同 理 v2 到 vm 也 

是 一 样 的 计算 方法 ， 只 不 过 权重 乘 的 是 它们 各 目 连 接 的 权重 而 已 。 


Tf 4 MAU 


等 ， 还 没完 。 同 样 ， 反 过 来 ， 当 下 面 所 有 的 v 输 入 的 时 候 ，h1 的 计算 融 是 这 样 了 ，v 和 h1 上 的 权重 w 做 内 积 ， 再 加 上 c1， 


dR 


1 
IO: is = A — 4E s E ys N x ~| ES 
之 后 的 和 再 过 一 下 te 这 个 国 数 ， 最 后 输出 h1。 同 理 得 到 h2? 到 hm。 过 程 并 不 复杂 ， 就 是 看 着 表达 式 略 显 头 景 而 已 。 


这 种 模型 有 趣 的 地 方 束 在 于 输入 输出 两 侧 同 时 放 入 样本 ， 可 以 互 为 输入 和 输出 形成 一 个 映射 天 系 。 


10.2 ”逻辑 回归 


在 讲 玻 尔 北 曼 机 的 损失 阔 数 之 前 ， 还 是 需要 先 铺垫 一 个 概念 ， 那 束 是 最 大 似 然 度 以 及 逻辑 回归 。 我 们 先 来 说 逻辑 回归 。 有 的 
读者 朋友 可 能 已 经 听 阅 过 逻辑 回归 很 多 次 了 ， 而 且 在 前 面 我 们 已 经 看 过 它 的 形式 了 。 


这 里 的 x 是 个 向 量 。 其 实 如 果 把 wx+b 当 成 一 个 目 变 量 z 的 话 ， 那 么 y=f (z) 的 图 像 束 是 一 个 SSgmoid 消 数 图 像 个 3 曲 


线 。 我 们 现在 的 问题 是 ， 为 什么 是 这 么 个 东西 ? CBAR? 这 个 我 们 已 经 熟视无睹 的 东西 细 说 起 来 还 是 有 济源 的 ， 听 我 慢 慢 


Wi. 
如 果 你 以 前 接触 过 “但 努 利 分 布 ”的 话 那 融会 知道 ， 但 努 利 分 布 其 实 融 是 二 项 分 布 。 


] 
l- p; n=O 


4 =e Hn ZU A HE" Sb eS 
S. EO BUE 


IX SAAS V s UCET BBSS LE ARR TS AEP "IR^ mk "^ ASRS 
1，“ 否 ” 融 是 0。 简 单 襄 ， 例 如 ， 如 果 我 们 可 以 观测 到 诸如 扔 硬币 这 种 事情 ， 产 生 正 面 记 做 1， 产 生 反 面 记 做 0， 那 么 经 过 知 干 
次 之 后 束 会 产生 一 个 统计 值 ， 玖 是 产生 正面 的 次 数 m 与 忌 次 数 n 的 比值 天 系 ， 也 殊 是 p， 那 么 背面 的 比值 就 是 1-p， 不 存在 其 他 的 


状态 。 伯 努 利 分 布 及 其 相 天 的 延展 讨论 都 是 研究 这 样 一 种 只 有 两 种 可 能 性 的 随机 过 程 中 事件 所 表现 出 来 的 特性 与 规律 。 


3 
| 


P 
令 它们 的 比值 二 2 为 sS， 这 个 s 的 含义 就 是 一 个 确信 程度 的 含义 ， 或 者 说 是 1 和 0 两 种 情况 的 概率 比值 。 取 t=ln (s) ， 则 有 如 
下 推导 : 


到 这 里 基本 器 看 明日 了 将 t 代 换 成 为 wx+b 束 OK 了 ,，f (x) mie TERA, xe 1 26 EIE. ile: 


] 
一 f(x) 一 | 1 po) 


58 IAW RAEN: 


ig 
Loss =—— 2 y, log fx) +(—y;) log - f) 


i-l 
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的 时 候 ， 后 面 的 项 恒 为 0， 描 述 损失 的 是 log f (xi) 项 ， 如 果 log f (x) 390, f (x) 必 为 1， 如 果 不 是 1 那么 f (x) 越 小 则 损失 
值 越 大 ; 当 标 签 值 y 为 0 的 时 候 ， 前 面 的 项 恒 为 0， 描 述 损失 的 是 (1-yi) -log (1-f (x) ) 项 ， 如 果 log (1-f (x) ) 为 
O, f (x) 必 为 0， 如 果 不 是 0 那么 f (xi) 越 大 则 损失 值 越 大 。 在 前 面 接触 交叉 炳 的 过 程 中 我 们 已 经 详细 说 过 一 次 了 ， 在 这 里 就 不 
HHR. 

这 个 部 分 最 后 输出 是 一 个 实数 值 。 如 果 想 不 太 清楚 ， 就 
想 y=kx+b， 这 个 输出 的 y 就 是 映射 到 一 维 空间 后 的 结果 ， 当 然 y 的 大 小 直接 决定 了 “ OU OME. 有 没有 感觉 相当 于 在 计算 
一 个 距离 ， 当 y=0 的 时 候 p 是 0.5， 也 就 是 “1” 和 “0” 等 概率 ; 而 当 y 向 正 负 方 向 “ 越 走 越 远 ”的 时 候 则 会 令 值 分 别 无 限 趋 近 
"1" Be “O" 。 


这 里 的 wx+b 是 一 个 x 经 过 线性 变换 后 映射 到 一 维 空间 中 的 情形 


10.3 ”最 大 似 然 度 


沁 辑 回归 的 含义 和 推导 过 程 基本 上 就 是 上 面 这 些 东 西 了 ， 但 是 这 些 东西 是 不 是 仍然 有 一 些 理论 依据 呢 ? 其 实 也 是 有 的 ， 就 是 
统计 学 中 的 最 大 似 然 度 (maximum likelihood) 或 最 大 似 然 估计 的 概念 。 用 白话 来 说 ， 就 是 根据 统计 学 特性 估算 其 最 大 可 能 的 
情况 这 样 一 种 方法 。 即 在 一 个 已 经 设 定好 的 环境 中 ， 有 未 知 参数 向 量 6， 概 率 密度 函数 为 P (x) ， 那 么 通过 一 系列 随机 取 的 样本 
x1，x2，…，xT 的 观测 来 估算 参数 向 量 6。 白 话 解释 : 有 这 么 一 个 观测 的 过 程 ， 有 一 个 未 知 的 参数 向 量 6， 这 是 一 种 条 件 描述 。 观 
测 对 象 数据 用 x 来 表示 ， 那 么 在 观测 的 过 程 中 x 是 会 有 一 定 的 概率 分 布 的 。 把 这 个 分 布 表示 成 P (x) 的 表达 式 。 那 么 如 果 你 观测 
到 的 x 只 有 “1” 或 “0” 两 种 情况 ， 那 么 P(x) 的 表达 式 就 是 刚刚 说 的 伯 努 利 分 布 


P? n-l 
0 


如 果 你 观测 到 的 x 是 一 个 以 b 为 平均 值 、 以 0 为 标准 差 的 正人 态 分 布 ， 那 么 P(x) MMARKA: 


20 


IM, P (x) 束 用 来 做 概率 分 布 密度 的 摘 述 。 


那么 观测 值 x1，x2，...，x 了 的 联合 密度 函数 应 为 : 


[I 


L(x|0) » | | P(x,) 


t=] 


其 中 这 个 品读 作 “ 派 ”， 其 实 束 是 圆周 率 7t 的 大 写 形式 ， 不 过 大 写 的 中 这 里 表示 的 不是 圆周 率 而 是 连 乘 关系 。 这 个 L 销 数 的 合 
义 束 是 似 然 度 (likelihood) ， 不 是 Loss 的 合 义 。 这 里 表示 的 是 对 这 个 随机 过 程 观 测 了 T 次 ， 如 果 是 扔 硬币 的 场合 可 以 束 认 为 是 
扔 了 T 次 硬币 做 了 T 次 记录 。 其 中 我 将 X= (x1，Xx2，.…，XT) 视 为 一 个 目 变 量 向 量 。 展 开 L (x0) 会 得 到 : 


L(x|@) = P(x,|0)P(x,|0):-- P(x;|0) 


请 注意 这 里 写法 的 变化 ，P (x110) 和 P (x1) 是 同样 的 含义 ， 只 不 过 刚才 我 们 忽略 挥 了 这 个 待定 系数 09， 而 在 这 里 我 们 把 它 
写 全 了 ， 把 6 同样 当成 一 个 变量 向 量 ， 融 类 似 于 写成 f (x, 0) 。 这 个 地 方 不 用 太 过 纠结 ， 因 为 所 有 的 阔 数 表达 陈 中 任何 一 个 项 


或 系数 ， 如 果 你 想 把 它 当 作 变 量 来 研究 变化 特性 的 时 候 ， 都 可 以 写作 多 元 函数 的 形式 。 例 如 y=f (x) =kx+b， 这 里 相当 于 我 只 
研究 y 和 x 之 间 的 关系 ， 而 y=f (x, k, b) =kx+b 则 相当 于 我 在 这 个 场合 下 要 研究 y 和 X、k、b 三 个 变量 的 天 系 ， 仅 此 而 已 。 


那么 对 于 一 个 确定 项 的 L (x0) 消 数 来 说 ， 我 们 希望 求 出 一 个 合适 的 9 向 量 的 数值 来 使 得 这 个 连 乘 式 取得 最 大 值 ， 有 没有 视 
得 突然 又 变 成 了 好 像 前 面 求 Loss 极 值 的 情况 ?如 果 要 求 这 个 遂 数 的 极 值 点 ， 其 实 也 束 是 在 偏 导 数 等 于 0 的 点 作为 候选 点 中 去 找 ， 


OL(x | 0) 
O0 


(BAEK ELBURN SS, S SON REMERSA LTR ERAVEWSARE. MERRER FHERR TUS 31x 
样 的 体会 ， 乘 法 比 除法 好 做 ， 加 减法 比 乘 法 好 做 ， 加 法 比 减法 好 做 ， 没 错 吧 ”这 时 候 可 以 做 这 样 一 个 小 的 技巧 ， 求 对 数 。 


一 人 


y=ln (x) 


XJEXEREXBUXE MJskiExc (0, +00) ， 而 概率 的 定义 是 (0, 1) 区 间 ， 定 义 域 万 面 是 没有 问题 的 ， 而 由 于 y=In (x) 在 


L(x|0)= [T^c 
(0, 1) Ke MAMA SIAN, BBA " 产生 极 值 的 点 与 In (L (x|6) ) 取得 极 全 的 点 是 一 致 的 ， 问 题 


Oln(L(x | @)) 
OO 


AT Riles PA HESS ER SheMet, TEAS-BBURT AREA, PIAMEAS R7 x23 Y — FFB 
HELSA SETS I EETEIBIIHBSI EE. IÁBISUEEDNSSDSBVR BUMPER ACE RBRZJÉSXESSSAWTUDRJ;Ee (eax) ， 然 后 用 


EME "BE" 的 方式 去 找 合适 的 位 置 来 满足 损失 函数 最 小 。 从 工程 角度 来 说 ， 这 么 做 当时 没有 什么 问题 。 从 学 术 的 角度 来 
说 ， 对 于 一 个 完整 的 


X = WX tw xt: +w x, bu 


Kin, XPE MERIR BESO E RSS" , UAE “Re” | SERENE PAH Mae 


= 0 


值 ， 且 这 个 不 确定 值 一 般 是 满足 正 态 分 布 的 : 


0.4 


0.3 


0.2 


0.1 


0.0 


u ~ N(Q, o 


34.1% | 34.1% 


~ 21% | 
0.1% P| 13.6% 13.6% | d 


一 30 — 2 =e u lo 20 30 


即 中 心 为 0、 方 差 为 0 的 正 态 分 布 。 也 就 是 可 以 理解 为 这 种 观测 中 产生 的 误差 大 部 分 情况 下 比较 小 且 接 近 于 0， 有 少量 概率 
会 使 得 误 友 比较 大 ， 误 帮 越 大 的 情况 概率 越 小 。 如 此 一 来 ，X 的 分 布 束 变 成 了 : 


X~ N(u, 0), u= wx twt ++ +wxntb 


USE LEPIDE TS DE, ioc Sere wx + bRSJ ER, 


继续 推导 : 


L(w,o^) = P(x ,x,,…., X.) 


|| 
= 
pe 
E 


求 对 数 : 


InL(w,o") E 2. --In2no^)- 2 (x, - Lu) a wi 
t=] Z 20 


这 里 的 t 惑 代表 每 个 观测 样本 的 序列 号 。 


如 果 看 着 实在 不 大 明日 也 没关系 ， 记 住 一 个 跟 我 们 有 关 的 结论 束 行 ， 一 个 连 乘 关系 的 最 大 值 可 以 通过 求 对 数 极 值 的 方法 找到 
最 大 值 点 ， 而 且 它 最 大 值 的 位 置 和 其 取 对 数 后 的 极 大 值 位 置 是 相同 的 。 


10.4 最 大 似 然 度 示例 


有 天 最 大 似 然 度 的 使 用 ， 我 们 融 看 一 个 最 简单 的 例子 找 找 感 咒 好 了 。 


假设 在 一 个 箱子 里 放置 大 量 的 同样 大 小 的 日 球 和 黑 球 ， 然 后 随机 在 里 面 抽取 1 个 ， 观 测 表 放 回 ， 重 复 100 次 。 友 现 有 80 次 是 
日 球 ，20 次 是 黑 球 。 问 箱子 里 日 球 的 比例 是 多 少 ? 从 感 狗 上 来 看 ,似乎 应 该 是 有 80% 的 日 球 才 对 ， 但 是 数学 上 应 该 怎么 推导 
Ne? 来 看 过 程 。 

首先 这 是 一 个 典型 的 伯 努 利 分 布 求 "e "0 中 p 值 的 问题 简单 解释 融 是 在 一 个 随机 过 程 的 观测 中 会 友 现 一 个 事件 皮 生 的 
概率 为 p， 不 发 生 的 概率 为 1-p。 根 据 伯 努 利 分 布 律 来 计算 : 


P(x|@) 
= P(x, | A)P(x, | 0)--- P(X 9) | 0) 
H p? (1— py? 


其 中 6 就 是 待定 的 参数 ， 也 就 是 白 球 的 比例 。 问 题 就 变 成 了 6 参数 是 多 大 时 ，P (x) =p80 (1-p) “0 能 取得 极 大 值 。 


BD 
F 


50 20 


RS: 


dS = 80 p”(1— py? -20 p** (1— p) = 


20(1-p)" p (4-5p) = 0 
这 里 很 明显 可 以 看 到 有 几 种 情况 能 让 等 式 为 0， 等 于 0 的 地 方 就 是 f (p) 函数 的 极 值 点 候选 位 置 。 
p=1, p=0, p=0.8 
这 三 个 值 是 “或 ”的 关系 ,但 是 很 容易 判断 出 p=1 和 p=0 是 方程 的 增 根 ， 只 有 p=0.8 的 情况 下 可 以 得 到 解 。 


这 就 是 一 个 最 大 似 然 度 在 伯 努 利 分 布 中 应 用 的 最 简单 的 例子 了 ， 希 望 能 对 读者 朋友 更 直观 地 认识 这 种 方法 有 帮助 。 


10.5 ”损失 函数 


言 归 正 传 ， 继 续 回 来 看 受 限 玻 尔 北 曼 机 。 受 限 玻 尔 兹 曼 机 的 损失 背 数 叫做 对 比 散 度 立 数 (contrasive divergence, CD) , 
虽说 听 着 名 字 还 是 不 知 所 云 ， 但 学 习 目 标 是 我 们 刚才 看 过 的 最 大 似 然 度 一 一 要 让 网 络 学 习 到 一 个 算 阵 ， 使 得 网 络 中 拟 合 的 概 
率 “ 全 局 性 ”最 大 。 


受 限 玻 尔 兹 曼 机 是 从 玻 尔 兹 曼 机 中 演变 出 来 的 ， 其 中 玻 尔 兹 曼 机 有 一 种 解释 是 能 量 解 释 ， 一 种 基于 能 量 的 模型 (energy- 


based model) 。 这 个 能 量 的 定义 是 : 


E(v,h|0)=—| > wvh - V bv, Y ch 
V ij i j 


其 中 的 6 残 是 参数 w、c 和 b， 后 面 这 些 表示 的 能 量 有 三 个 部 分 ， 一 个 是 由 于 权重 w 连 接 两 侧 的 节点 v 和 hh 产生 的 ， 必 须 三 个 都 
为 1 才 算 有 能 量 的 输出 ;另外 两 个 则 是 书 点 上 的 偏 置 和 书后 输入 的 向 量 维度 值 相 乘 ， 也 是 必须 都 为 1 才 算 有 能 量 的 输出 。 


_ | eg EA) 


e 


Z (0) SIA-HAF, MIRKE 数 时 最 前 面 的 N 是 一 个 意思 。 也 丈 是 表示 在 9 确定 的 情况 下 ，v 和 h 相 互 拟 合 的 概率 。 如 果 只 
观测 P (v) ,那么 展开 束 是 : 


Z(@) 


MERA IX SACRE ORES TRAE : 


L(8) - — 


( wv 十 ch 十 vb ) 


fo(V) => 


在 对 比 散 度 函数 的 思想 指导 下 ， 只 利用 这 两 个 公式 : 


m 


plh, =\|v)=o 旋风 xy s piv, =l|h)=o > w xh, +b 


J i=] 


然后 让 向 量 在 这 个 网 络 的 两 侧 不 断 “ 反 弹 ”。 初 始 化 网 络 权 重 w， 用 一 个 向 量 v 通 过 网 络 映射 来 得 到 h; 然后 是 第 一 次 “ 反 
绊 ”， 用 h 通 过 网 络 反 过 来 生成 v'; 然后 是 第 二 次 “反弹 ”， 用 这 个 v' 通 过 网 络 来 生成 h'。 然 后 根据 L 浮 数 的 导数 来 更 新 Ww。 每 个 
FS AsO I. 


10.6 ”应 用 场景 


RBM 在 处 理 分 类 问题 、 降 维 、 特 征 提取 等 场景 中 都 有 一 些 应 用 。 在 很 多 场景 中 RBM 可 以 进行 “ 串 并 联 ” 的 使 用 ， 也 残 是 通 
过 多 个 RBM 模 型 来 形成 一 个 完整 的 工作 网 络 。RBM 的 应 用 其 实 不 如 现在 的 CNN 和 LSTM 网 络 那 么 流行 ， 在 Github 的 上 资源 数量 
和 热度 也 不 够 多 。 这 里 找到 了 两 个 例子 ， 大 家 有 兴趣 自己 翻 看 一 下 束 好 了 。 


https://github.com/meownoid/tensorfow-rbm， 是 用 来 做 解码 器 的 (autodecoder) 。 


https://github.com/Cospel/rbm-ae-tf， 这 个 例子 是 用 来 做 降 维 工 具 的 。 


10.7 ”小结 


受 限 玻 尔 效 曼 机 在 笔者 的 工作 中 很 少 应 用 ， 所 以 很 深层 面 的 东西 也 确实 谈 不 到 ， 也 没有 掌握 其 奥义 所 在 。 


有 关 玻 尔 兹 曼 机 的 内 容 ， 大 家 如 果 感 兴趣 ， 还 是 去 找 相关 的 国外 文献 去 看 吧 。 不 过 可 以 负责 任 地 告诉 大 家 ， 在 笔者 接触 过 的 
大 中 型 互联 网 公司 的 同行 当中 我 也 做 过 一 些 调查 ， 还 是 一 些 卷 积 神经 网 络 、LSTM 网 络 及 其 变种 的 应 用 比较 多 ， 可 以 说 是 绝 大 多 
数 场景 了 。 


律 经 网 络 的 强大 能 力 其 中 有 一 个 体现 束 是 使 用 者 可 以 根据 自己 的 喜好 和 判断 来 选择 各 种 有 性 格 的 拓扑 结构 以 及 神经 元 和 激励 
冰 数 来 做 尝试 ， 在 实验 有 比较 好 的 效果 后 就 可 以 思 结 归纳 其 中 对 效果 有 帮助 的 地 户 了 。 这 种 尝试 的 过 程 在 工程 项 目的 研究 中 是 不 
可 避免 的 ,请 大 家 一 定 要 有 耐心 。 


第 11 章 ”强化 学 习 


这 一 章 我 们 来 聊 一 聊 强 化 学 习 相 天 的 问题 。 


强化 学 习 (reinforcement learning) ， 也 有 地 方 译 做 “增强 学 习 ”， 严 格 训 来 不 算 深 度 学 习 的 讨论 泡 畴 ， 因 为 深度 学 习 基 
本 是 在 研究 使 用 深度 神经 网 络 在 处 理 各 种 问题 时 候 的 经 验 与 技巧 ， 而 强化 学 习 本 身 是 一 种 人 工 智能 在 训练 中 得 到 策略 的 训练 过 


程 。 


何 为 得 到 策略 ? 在 前 面 我 们 接触 过 的 反 向 传播 网 络 、 卷 积 神经 网 络 、 循 环 神经 网 络 在 工作 中 大 部 分 都 是 在 完成 分 类 的 问题 


一 一 也 就 是 判断 一 个 样本 是 什么 类 别 标 签 的 问题 ， 或 者 一 个 序列 到 另 一 序列 的 Sequence-to-Sequence 的 输入 与 输出 模型 。 这 
跟 我 们 平时 看 到 的 科幻 电影 中 强大 的 人 形 机 器 人 的 功能 好 像 不 搭界 。 不 仅 是 这 样 ， 融 连 我 们 看 到 的 一 个 功能 单纯 到 只 能 下 围棋 的 
AlphaGo 都 没 办 法 通过 这 种 方式 训练 出 来 。 是 的 ， 如 果 和 希望 让 机 器 人 (不 管 是 人 形 机 器 人 还 是 非 人 形 的 带 有 策略 指导 输出 类 型 
的 机 器 人 ) 有 学 习 的 功能 ， 那 么 就 需要 使 用 这 种 学 习 的 方式 了 。 


这 种 方式 工作 的 过 程 其 实 一 点 都 不 神秘 ， 也 非 单 好 理解 。 记 得 曾经 在 跟 朋友 吧 火 锅 的 时 候 ， 其 中 一 位 朋友 在 给 另 一 位 教主 稳 
的 妹子 讲 强 化 学 习 的 过 程 时 用 了 这 样 一 个 比喻 。“ 假 如 你 教 一 个 孩子 学 古 第， 哈 都 不 用 告诉 他 ， 让 他 目 己 随便 去 弹 。 他 可 以 站 
看 ， 身 看 ， 趴 着 ， 跑 着 去 阐 ; 可 以 用 手 弹 ， 可 以 用 脚 弹 ; 可 以 用 很 大 力气 弹 ， 也 可 以 用 很 小 的 力气 去 弹 .….. 随 他 的 便 。 而 你 作为 


一 个 老师 要 做 的 事情 也 很 简 单 ， 丈 是 只 有 他 弹 得 要 领 正确 的 时 候 你 才 给 他 一 块 糖 ， 弹 得 不 对 就 大 嘴巴 抽 他 。 然 后 让 他 目 己 慢 慢 忌 
结 出 来 要 怎么 弹 束 好 了 .……." 


当时 听 完 这 个 解释 的 万 法 我 完 得 这 位 仁兄 真是 有 才 ， 要 义 还 真是 说 得 笑 不 多 ， 只 不 过 这 种 学 习 方式 对 于 以 人 作为 对 象 的 方式 
来 说 实在 是 没有 可 行 性 ， 首 先 不 能 打 孩 子 ， 而 且 这 种 万 式 也 特别 没 效 率 。 好 了 ， 这 个 比喻 大 家 心里 有 数 束 行 了 ， 下 面 我 们 来 看 具 
体 实施 起 来 是 怎么 个 细节 步 又 。 


11.1. 模型 核心 


所 有 的 强化 学 习 的 训练 场景 都 可 以 简化 地 摘 述 为 这 样 几 个 模型 要 素 ， 我 们 先 来 看 看 整个 模型 涉及 哪 几 个 重要 的 对 象 。 


Reward 


Action 


State 


首先 是 这 个 主体 ,我 们 可 以 粗略 地 理解 成 机 器 人 ， 我 们 残 是 要 训练 它 的 行为 策略 。 


第 二 个 是 环境 或 者 状态 ， 这 融 是 主体 所 处 的 当时 的 “情形 ”。 注 意 这 个 情形 在 不 同 的 场合 是 不 一 样 的 ， 比 如 对 于 AlphaGo 
这 种 忒 西 来 讽 ， 环 境 融 是 当时 的 围棋 棋盘 盘面 的 情况 。 而 对 于 目 动 驾驶 的 无 人 汽车 ， 这 个 环境 残 是 当时 的 路 况 (周围 车 辆 位 置 、 
目 身 所 处 经 纬度 、 天 气 情 况 ) 、 卫 星 地 图 、 和 车速 甚 至 胎 压 等 各 种 描述 当时 状况 的 数据 维度 。 


除 此 之 外 还 有 两 个 重要 的 因素 ， 分 别 是 Action 和 Reward。 
Action 可 以 翻译 成 “动作 ”或 者 “行为 ”， 束 是 这 个 机 器 人 所 要 做 出 的 反应 或 者 输出 。 比 如 AlphaGo 的 把 棋子 下 在 什么 地 
方 ， 或 者 汽车 自动 驾驶 仪 的 一 个 转向 、 油 门 或 刹车 指令 。 


Reward 可 以 翻译 成 “反馈 ”或 者 “奖励 ”， 不 过 请 注意 “奖励 ”可 不 永远 都 是 奖励 ， 也 可 以 是 惩戒 。 “奖励 ”作为 正 值 来 
襄 那 束 是 奖励 ， 整 像 得 分 一 样 ， 如 果 是 负数 那 就 表示 和 您 式 ， 或 者 罚 分 。 例 如 在 AlphaGo 的 下 定 一 个 棋子 后 ， 盘 面 状态 会 友 生 改 
变 ， 这 个 时 候 如 果盘 面 的 改变 比较 有 利 ， 则 得 到 一 个 正 值 的 Reward， 有 利 较为 明显 则 Reward 会 比较 大 ， 而 有 利 较 小 则 Reward 
会 比较 小 。 相 反 ， 如 果盘 面 变 得 对 自己 有 较 大 的 不 利 则 Reward 会 取 绝 对 值 比较 大 的 负 值 ， 有 小 的 不 利 则 会 取 一 个 绝对 值 比较 小 
的 负 值 。 


这 几 个 概念 都 还 是 比较 好 理解 的 对 吧 ? ABA ASMA LPR RR RAT TS. 
第 一 ， 把 这 些 奖 励 和 损失 定义 好 ， 让 环境 中 产生 的 奖励 和 损失 能 够 顺利 有 效 地 量化 反馈 给 主体 。 
第 二 ， 让 主体 以 较 低 的 成 本 快速 地 不 断 尝 试 ， 以 忌 结 出 在 不 同 的 State 的 情形 下 Reward 较 大 的 工作 方式 。 


怎么 样 ， 思 路 很 简单 对 不 对 ? 那么 我 通过 什么 样 的 方法 建 模 能 够 得 到 一 个 比较 靠 谱 的 策略 呢 ? 熟悉 统计 学 的 读者 朋友 肯定 会 
很 容易 想到 一 个 最 为 简单 的 思路 一 一 是 的 ， 那 束 是 用 类 似 隐 马尔 可 夫 链 的 方式 来 做 训练 ， 统 计 一 下 状态 转换 的 概率 和 得 到 
Reward 的 数学 期 望 值 ， 然 后 寻找 一 条 获取 最 大 Reward 的 路 径 。 嗯 ， 是 的 ， 这 个 思路 靠 谱 。 那 我 们 就 来 看 看 这 个 叫做 马尔 可 夫 
决策 过 程 的 方法 。 


11.2 马尔 可 夫 决 策 过 程 


熟悉 马尔 可 夫 老 先生 解决 问题 思路 的 人 应 该 一 看 这 个 名 称 丈 知道 ， 这 个 决策 的 过 程 是 个 只 和 当前 状态 有 关 ， 和 以 前 状态 无 天 
的 决策 过 程 。 


0.10 


请 看 上 图 ， 马 尔 可 夫 决 策 过 程 (markov decision process, MDP) 从 思路 上 来 说 基本 上 只 看 一 种 情形 就 可 以 了 ， 在 一 个 状 
AR (REARS (. S1. So) ， 会 有 多 大 的 概率 选择 某 一 种 动作 (就 是 图 中 的 ao 或 a1) ， 以 及 每 一 次 状态 的 迁移 会 获得 多 大 
一 个 奖励 〈 融 是 上 图 中 曲 里 拐弯 的 箭头 上 面市 着 +5 和 -1 的 那 种 ) 。 整 个 这 个 过 程 是 从 大 量 的 样本 学 习 中 得 到 的 ， 用 表达 式 来 表 


示 这 个 模型 通 弟 写作 : (S, A, P (s, S) ，R (s, s) ) 这 样 一 个 四 元 组 。 
S 表 示 状 态 State， 
人 和信 表示 动作 Action,， 
P (s, sS) 表示 前 后 两 种 状态 s 和 1s' 之 间 的 转化 概率 ， 
R (s, s') 表示 前 后 两 种 状态 $ 和 s 之 间 的 转化 所 获得 的 奖励 Reward。 
对 于 MDP 来 这， 把 这 4 个 要 素 摘 述 清楚 了 ， 融 算是 把 整个 模型 换 述 清楚 了 。 


上 面 所 说 的 这 一 切 都 是 基于 一 系列 观测 的 统计 结果 ， 例 如 你 可 以 观测 在 象棋 博 弃 中 的 众多 的 棋局 来 得 到 这 样 一 个 统计 结 
其 中 的 5S 就 是 摘 述 棋局 盘面 的 向 量 (一 个 9x9 的 同 量 ， 每 个 维 大 表示 一 个 交叉 点 ， 每 个 维度 上 有 一 个 棋子 的 摘 述 信息 ) ，A 是 摘 
述 某 个 棋子 动作 的 向 量 (例如 车 六 平 二 ， 炮 三 进 一 ) ，R 是 摘 述 这 次 状态 转化 的 得 失 (可 以 简单 用 棋子 的 得 失 来 摘 述 ， 例 如 吃 掉 
Xj73— lE, (81053, 150873W238— 2618-223) 。 最 后 基于 大 量 的 观测 统计 出 来 的 结果 束 是 一 个 马尔 可 夫 决 策 过 程 的 模型 。 


如 果 把 这 个 过 程 摘 述 成 一 个 类 似 查 表 过 程 的 方式 的 话 ， 可 以 把 刚刚 这 个 模型 转化 一 下 得 到 这 样 一 个 表格 : 


ACTIONI ACTION2 ACTION3 | e 
mmi o [o | [| o. 
mma PE 


ACTIONI ACTION2 ACTION3 | ee 
SL RR RR RR 


左边 横 坐 标 STATE 是 各 个 状态 ， 上边 的 ACTION 是 指 不 同 的 动作 输出 ， 中 间 交 又 的 方 格 中 填写 的 内 容 请 注意 还 是 一 个 表格 ， 
BR NEE. 


Possibility STATE 
= o om 


不 过 别 紧张 ， 这 个 表格 就 说 套 这 么 两 层 。 总 结 的 时 候 就 用 统计 的 方法 算出 具体 的 数值 填 入 表格 ;用 的 时 候 就 用 查 表 的 方式 ， 
在 第 一 个 表格 中 用 当前 的 STATE 找到 对 应 的 STATE 列 ， 在 后 面 找到 概率 大 而 且 奖 励 值 高 的 那个 状态 。 如 果 不 是 在 特殊 场景 中 进行 
具体 讨论 ， 而 是 单纯 从 刚刚 这 个 表 上 来 看 的 话 ， 这 个 表 一 定 是 描述 在 某 个 STATE 下 做 了 某 个 ACTION 之 后 获得 的 一 个 统计 结果 。 
这 个 ACTION 到 | 底 靠 不 靠 谱 就 看 后 面 这 些 统计 出 来 的 值 是 不 是 有 着 足够 好 的 REWARD。 例 如 这 个 表 中 ， 光 看 这 三 行 可 以 得 到 一 
个 REWARD 的 期 望 值 ， 用 0.353x3+0.12x2+0.05x7...…... 来 得 到 一 个 期 望 值 ， 算 出 来 应 该 是 1.64。 


不 过 聪明 的 读者 朋友 一 定 是 可 以 推断 出 来 的 ， 婚 然 是 一 个 概率 上 问题， 那么 Possibility 的 这 一 列 相 加 之 和 一 定 是 1 或 100% 
是 的 ， 这 个 结论 是 正确 的 。 那 么 最 后 在 第 一 个 表格 里 去 做 决策 的 时 候 束 好 办 了 ， 丈 是 去 比较 在 当前 的 STATE 下 ， 用 哪个 ACTION 
会 得 到 更 为 “ 靠 谱 ”的 结果 一 一 也 残 是 哪个 ACTION 下 面 的 那个 表格 (第 二 个 表格 ) 里 出 现 比 较 大 的 REWARD 值 。 这 个 思路 应 
该 还 是 比较 好 获得 的 ， 而 且 定 性 去 看 的 话 肯定 是 大 概率 得 到 大 REWARD 值 的 那个 ACTION 会 更 有 吸引 力 一 些 。 这 就 是 整个 隐 马 
尔 可 夫 决 策 过 程 的 扳 述 了 ， 也 并 不 复杂 。 从 这 个 过 程 中 也 可 以 看 出 来 ， 如 果 第 2 个 表格 能 够 退化 成 为 一 个 只 有 一 行 的 数据 那 是 最 
好 ， 也 就 是 说 一 个 STATE 经 过 某 一 个 ACTION 只 能 变化 成 为 某 一 个 STATE， 而 不是 以 一 定 的 概率 转化 成 众多 STATE 中 的 一 个 ， 那 


么 情况 融会 向 化 得 多 。 


除了 用 在 刚 在 举 的 棋局 的 例子 上 之 外 ， 其 他 的 各 种 决策 只 要 能 够 把 STATE 辐 量 化 ， 把 ACTION 癌 量化 ， 把 REWARD 数 值 
化 ， 丈 都 可 以 使 用 马尔 可 夫 决 策 过 程 来 学 习 ， 并 得 到 一 个 从 统计 角度 来 看 最 为 有 吸引 力 的 决策 表 。 最 终 让 机 器 人 用 查 表 的 办 法 找 
到 当前 状态 下 做 什么 动作 最 靠 谱 来 决定 下 一 步 的 举动 ， 这 个 思路 是 不 是 顺 其 自然 呢 ? 
11.2.1 用 游戏 开刀 

为 了 让 这 个 训练 过 程 有 点 具象 性 ,我们 还 是 要 找 一 个 假想 政 来 做 说 明 。 


我 想 ， 游 戏 可 能 是 一 种 册 合 适 不 过 的 场景 了 ， 不 管 是 什么 类 型 的 游戏 理论 上 都 是 可 以 的 。 由 于 整个 过 程 中 遍布 着 试 错 的 基 
因 ， 所 以 如 果 试 错 给 我 们 市 来 的 成 本 太 高 那 将 是 一 场 非常 不 划算 的 实验 ， 但 是 洲 戏 中 基本 不 存在 这 个 问题 ， 只 要 不 是 付费 的 。 此 


Sh, TARP RAAB AIL. RES. AR, EAFA, JPCEERÉEISIB— BOX THERE. 


对 于 我 们 八 零 后 的 准 大 叔 们 来 说 ， 任 天 量 FC 游 戏 应 该 是 最 杀 切 不 过 的 了 。 由 于 FC 游 戏 诞 生 于 20 个 世纪 80 年 代 ， 而 且 几 乎 是 
中 国 当时 家 庭 电子 游戏 中 唯一 的 候选 品 ， 几 乎 成 了 那 一 代 孩 子 们 家 里 的 标 配 。 这 些 游戏 现在 看 来 ， 无 论 是 操控 感 、 男 质 、 复 杂 性 
都 远 不 如 各 种 二 绪 的 手 游 。 但 也 正 因 为 如 此 ， 针 对 它 的 学 习 可 能 才 更 具备 一 些 可 行 性 。 


在 FC 游 戏 上 ， 大 体 分 有 “ 纵 版 ”、“ 横 版 ”、“ 固 定 ”、“ 无 限制 ”等 版 式 类 型 的 游戏 。“ 纵 版 ” 融 是 玩家 操纵 的 人 物 的 
移 屏 操 作 从 下 往 上 ， 或 者 从 上 往 下 走 ， 比 较 有 代表 性 的 游戏 是 “ 训 冰 块 ”。 


"模版 ”就 是 玩家 操纵 的 人 物 的 移 屏 操作 从 左 往 右 ,或 者 从 右 往 左 走 ， 代 表 性 的 作品 有 “ 魂 斗 罗 ” 等 。 而 且 魂 斗 罗 这 种 游戏 
有 的 关卡 是 “ 纵 版 ”有 的 则 是 “模版 ”， 不 过 它们 都 是 需要 玩家 自己 操纵 使 得 洲 戏 主体 友 生 移 屏 。 
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“国定 ”版 的 游戏 也 比较 多 ， 殊 是 在 一 个 屏幕 中 展示 了 场景 或 者 天 卡 的 全 部 ， 不 需要 友 生 移 屏 才能 使 游戏 情节 向 前 友 展 的 ， 
例如 “90 坦 克 ” 这 一 类 的 。 


“其 他 ”的 就 是 那些 会 移 屏 才能 友 生 游戏 情节 转移 ， 但 是 方向 性 不 明确 的 ， 这 种 游戏 里 面 寻 路 的 动作 成 分 会 比较 多 ， 比 如 


像 “ 勇 者 斗 恶 龙 ” 和 “霸王 的 大 陆 ” 这 类 游戏 ， 目 的 和 策略 都 过 于 复杂 。 对 于 人 来 说 可 能 没什么 ， 但 是 对 于 一 个 只 认识 向 量 的 计 
算 机 来 说 ， 处 理 这 种 维 大 的 天 键 一 一 评价 一 个 行为 在 整个 游戏 中 的 收益 显得 极为 困难 。 


如 果真 的 要 用 游戏 来 做 训练 对 象 的 话 ， 那 么 请 优先 选择 “固定 ”版 的 游戏 ， 而 且 选 择 评价 相对 简单 的 游戏 。 因 为 这 些 游戏 的 
状态 变化 维度 相对 比较 少 ， 比 起 其 他 复杂 游戏 来 说 训练 算法 理论 上 讲 更 容易 收 双 


我 们 要 训练 的 机 器 人 ， 不 论 你 怎么 设计 它 ， 它 只 是 一 个 地 地 道道 的 日 痢 。 它 在 整个 过 程 中 根本 不 知道 自己 在 玩 什么 ， 更 别 说 
玩 游 戏 玩 得 开心 不 开心 了 ， 它 能 理解 的 只 是 在 一 系列 和 一 个 环境 互动 的 过 程 中 输入 同 量 的 变化 ， 以 及 目 己 得 到 的 Reward 变 量 值 
变 大 变 小 而 已 。 它 目 己 只 能 通过 一 系列 的 调整 去 归纳 什么 情况 下 做 什么 动作 会 得 到 比较 大 的 Reward 值 ， 仪 此 而 已 。 也 难怪 我 一 
个 高 中 的 学 霸 朋 友 在 读数 学 专业 博士 毕业 后 跟 我 说 “游戏 一 点 也 没意思 ， 玩 来 玩 赤 最 后 大 家 就 是 比 一 个 数 .…..” 当 时 我 听 完 是 满 
脸 黑 线 ， 原 来 在 数学 人 物 的 世界 里 ， 万 物 已 经 被 简化 到 模型 的 最 本 质 形 态 了 。 我 当时 如 果 不 是 担心 他 会 跟 我 绝 交 的 话 ， 一 定 会 问 
吃 东 西 的 酸 甜 百 辣 应 该 也 是 无 所 请 ， 反 正 只 要 有 足够 的 氨基 酸 在 被 水 解 成 多 肘 ， 然 后 在 肝脏 被 转氨酶 转化 成 别 的 氨基 酸 ， 有 足够 
的 多 糖水 解 成 单 糖 再 被 线粒体 氧化 ， 人 就 基本 能 够 保证 不 死 … 这 可 能 是 人 和 机 器 的 最 大 差别 吧 ， 人 总 是 会 有 一 些 高 于 纯 物 质 层 
面 、 高 于 纯 理 性 层面 的 乐 西 存在 。 好 吧 ， 让 学 霸 们 去 创造 世界 ， 我 们 来 “ 比 数 ”。 


11.2.2 ”准备 工作 


理论 上 讲 ， 如 果 你 真 的 决定 要 训练 一 个 适用 于 FC 游戏 的 某 一 款 机 器 人 一 一 比如 某 游 戏 一 命 通天 机 器 人 的 话 ， 你 先 要 下 载 一 
个 FC 模拟 器 ， 并 在 FC 模拟 器 之 外 完成 一 系列 的 外 挂 工作 。 顺 便 提 一 句 ， 你 看 着 “ 阔 罗曼 蛇 ” 这 种 游戏 好 像 是 “模版 ”和 “ 纵 
版 ”的 混搭 游戏 ， 不 过 其 实 你 算 它 为 “固定 ”版 可 能 更 合适 ， 因 为 屏幕 是 自动 移动 并 推动 情节 友 展 的 ， 你 所 操控 的 小 飞机 只 需 
要 “ 原 地 千 子 弹 ” 见 招 拆 招 束 好 了 。 


准备 工具 1: FC 模拟 器 


这 个 东西 要 装 在 PC 上 ， 不管 你 是 在 Ubuntu 系 统 上 玩 还 是 在 Windows 系 统 上 玩 ， 应 该 都 有 相应 的 FC 模拟 器 版 本 。 下 载 模拟 
器 并 下 载 相应 的 ROM 软 件 (游戏 ) 束 可 以 开始 玩 了 。 


评价 
1POOOO150 HI 0050000 2POOOOOOO 
1Po2 2P00 


-> 主体 


动作 记录 


准备 工具 2: State 生 成 器 


作为 要 训练 的 主体 来 况 ，state 是 一 个 摘 述 环境 的 同 量 ， 既 然 是 向 量 残 需要 做 出 某 种 转化 来 得 到 。 在 这 样 一 个 场景 中 ， 我 们 
当然 是 硕 望 以 最 原始 的 画面 屏幕 作为 State 的 摘 述 万 陈 。 


准备 工具 3: 模拟 手柄 


你 可 能 还 需要 一 个 模拟 的 手柄 来 记录 输入 的 Action。 这 个 手柄 可 以 是 购买 的 一 个 UsB 的 手柄 ， 也 可 以 是 键盘 模拟 的 。 但 不 论 
是 其 中 的 哪 一 种 ， 都 要 能 够 保证 通过 一 个 适配器 工具 把 这 种 按键 的 记录 捕捉 到 ， 并 传递 给 主体 。 而 且 机 器 人 目 己 玩 变 的 过 程 中 ， 
需要 极其 频 莹 地 与 环境 交互， 这 时 不 得 不 使 用 模拟 手柄 了 ， 例 如 用 Python 对 模拟 刁 友 出 一 个 按键 动作 。 


准备 工具 4: 评价 器 


评价 器 的 功能 很 单纯 ， 融 是 根据 当时 的 State 所 作出 的 一 种 评分 负数 。 将 当时 捕捉 到 的 State 通 过 一 定 的 特征 提取 ， 无 论 是 画 
面 ， 还 是 声音 ， 或 者 是 从 洲 戏 某 个 接口 获取 到 的 具体 的 一 个 分 数 或 者 表示 玩家 血 量 的 HP 值 等 。 总 之 最 后 当 环境 当时 的 状态 传输 
到 评价 器 的 时 候 ， 评 价 器 能 够 根据 这 个 状态 给 出 一 个 比较 合适 的 评价 值 ， 或 正 或 负 ， 来 评价 当前 这 个 状态 对 玩家 的 不 利 或 者 有 利 
的 量化 程度 。 


11.2.3 训练 过 程 


当 这 一 切 都 完成 后 束 可 以 考虑 开始 训练 了 ， 一 旦 开始 训练 ， 整 个 系统 的 各 个 部 分 束 开 始 这 样 运作 起 来 。 


在 主体 中 有 了 刚刚 我 们 设计 的 那个 表 。 


SAE 
A 
TAB 
SAE 


它 是 用 来 表示 这 样 一 个 合 义 Q (statexaction) 一 value， 也 就 是 一 个 评价 表 ， 最 终 将 在 一 个 状态 State 下 通过 查 表 的 办 法 找 
到 当前 最 有 利 的 回应 动作 Action。 


然后 当 游戏 开始 后 ， 我 们 束 可 以 开始 填 元 这 个 表 了 。 


以 每 秒 钟 捕捉 ?次 屏幕 并 对 应 做 出 ?次 反应 ， 一 次 0.2 秒 的 周期 去 做 反应 。 那 么 在 一 个 时 刻 主 体会 收 到 一 个 state 和 一 个 
Action (即便 没 输入 也 应 该 算 一 种 Action， 或 者 成 为 空 操作 Action) ， 同 时 应 该 还 会 得 到 一 个 Reward， 或 者 从 时 间 连 贯 性 上 来 
看 ， 应 该 是 3 个 序列 。 


State; 


Action, , 


state, 


Action, 


E State. | 


- 
evi.) 


-] 
Reward, , ard, , Reward, eward,., 


CHON iz 
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注意 一 点 ， 当 时 输入 的 State;/、Action; 和 Reward; 可 不 是 “一 起 ”的 。 这 个 Reward; 其 实 是 State;_1 和 Actioni_1 及 之 前 的 一 系 


列 相互 作用 产生 的 回报 值 ， 所 以 记录 的 时 候 其 对 应 关系 应 该 是 如 上 图 所 示 的 逻辑 。 


这 里 的 Action 理 论 上 讲 应 该 都 是 由 机 器 人 自己 去 玩 比较 好 。 如 果 是 人 玩 一 些 游戏 ， 把 人 玩 的 过 程 加 以 记录 ， 让 机 器 来 学 习 


这 个 过 程 也 未 尝 不 可 ， 当 然 玩 得 好 的 一 些 人 会 帮助 机 器 人 在 学 习 中 快速 收 剑 ， 但 是 这 多 少 有 点 录像 或 者 模仿 的 意味 ， 自 我 尝试 和 
修正 的 逻辑 比较 少 。 而 如 果 由 机 器 人 从 头 开始 玩 的 话 ， 一 开始 就 面临 “ 冷 启动 ”的 问题 ， 也 就 是 一 开始 大 脑 一 片 空白 的 机 器 人 根 
本 不 知道 应 该 怎么 做 ， 那 就 .… 没 错 ， 你 说 对 了 ， 只 能 瞎 试 。 可 以 用 这 种 模型 来 进行 尝试 : 

ACTION jy = P, *Random() + (1—P,)*QO(state X action) 

一 个 Action 的 输出 将 有 一 定 概率 是 由 随机 函数 生成 的 ， 还 有 一 定 的 概率 是 由 已 经 学 习 到 的 Q (statexaction) 函数 ， 也 就 是 
那个 矩阵 查找 得 出 的 。 这 个 概率 可 以 由 我 们 人 来 控制 ， 总 体 原则 就 是 最 开始 Q (statexaction) 函数 里 面 还 什么 都 没有 的 时 候 让 
随机 函数 多 产生 一 些 比例 的 Action MQ (statexaction) 逐渐 有 一 些 积累 以 后 融 可 以 考虑 由 Q_ (statexaction) 来 生成 较 大 
比例 的 Action 一 一 这 算是 经 验 与 教训 的 结晶 。 如 果 这 个 函数 已 经 总 结 出 很 多 state 情 况 下 较 大 的 Reward 值 ， 那 么 就 襄 明 这 个 算 
法 已 经 使 机 器 人 足够 进化 ， 多 采用 这 些 已 经 进化 的 内 容 会 让 它 生存 得 更 长 久 。 


最 后 是 这 个 Reward' 乓 么 办 的 问题 。Reward 融 是 一 种 奖励 或 者 回报 ， 在 沙 罗曼 昵 这 种 游戏 里 面 ， 什 么 是 奖励 或 回报 呢 ? 或 
者 说 什么 会 对 机 器 人 更 有 利 呢 ? 简单 咬 ， 只 有 一 个 因素 一 一 生存 ， 能 活 到 最 后 束 算 通关 胜利 。 为 了 达成 这 样 一 个 因素 ， 需 要 哪 
些 因 素 文 持 呢 ? @@ 不 被 击 中 ，@ 歼 炎 政 人 ，@ 火 力 增 强 。 这 种 游戏 好 融 好 人 在 逻辑 相对 比较 简单 ， 要 么 打 怪 ， 要 么 被 怪 打 。 所 以 
呢 ， 评 价 器 的 功能 只 要 能 根据 游戏 界面 上 的 一 些 和 东西 判断 出 当前 的 状态 ， 并 反馈 一 个 分 数 ， 那 融 很 好 了 。 有 这 样 的 东西 吗 ” 有 
的 。 


在 屏幕 的 左下 角 已 经 有 一 个 类 似 仪表 盘 一 样 的 反馈 示 数 了 ， 左 下 的 02 表 示 当 前 玩家 的 生命 数 ， 死 亡 就 减 1， 加 命 就 加 1; A 
下 的 这 个 条 表示 火力 ;上 面 的 数字 是 得 分 ， 基 本 可 以 反映 歼灭 敌人 的 收益 。 其 他 的 沙 罗曼 蛇 版 本 可 能 这 些 值 是 以 其 他 形式 表示 
的 ， 没关系， 不 管 什么 游戏 ， 不 管用 什么 方式 表示 ， 只 要 你 能 够 用 类 似 截屏 、OCR 识 别 趾 、 声 音 特征 识别 等 方式 把 当前 的 State 
映射 成 为 一 个 Reward 值 就 可 以 了 ， 难 度 视 具体 游戏 的 情况 而 异 。 

假设 这 个 过 程 真 的 能 够 持续 的 话 ， 那 基本 就 是 在 穷 举 整个 所 有 的 游戏 中 的 可 能 性 了 。 最 后 我 们 会 得 到 一 个 非常 长 的 
STATExACTION 列 表 ， 表 格 里 的 每 个 值 就 是 一 个 回报 值 。 等 机 器 人 再 来 玩 这 个 游戏 的 时 候 ， 就 可 以 根据 当时 的 State 查 找 所 有 的 
Action 中 哪个 获 利 最 高 ， 然 后 直接 采用 就 可 以 了 。 咽 ， 不 过 看 上 去 好 像 有 点 问题 .……… 


11.2.4 [ale 


1. 空 间 存 储 问 题 


State 束 是 游戏 输出 画面 的 完整 信息 ， 例 如 笔者 使 用 的 FC 模拟 器 默认 分 辨 率 束 是 256x225， 也 束 是 57600 个 像素 ， 用 RGB 表 
示 则 每 个 像素 需要 3Byte 空 间 ， 也 就 是 172800 字 节 ， 也 就 是 168.75KB 来 表示 一 个 State。 


FURBO 


JOYSTICK 
SELECL START 


Action 对 于 FC 模 拟 器 来 这 也 是 比较 有 限 的 ， 大 致 上 融 是 “上 ”、 "B. UE. "BU. “左上 ”、 左下 、 "A 
上 ”、“ 右 下 ”、“ 空 方向 ”这 样 9 个 方向 状态 , 以 及 “A”、“B”、“AB”、“ 空 友 射 ”4 个 状态 。 所 以 所 有 的 可 能 性 相 加 就 
是 36 个 状态 ， 也 融 是 它们 的 乘积 。 换 句 话 说， 上 面 ACTION 一 共 也 项 是 36 询 。 王 万 别 筷 了 ， 方 向 键 和 AB 键 是 可 以 一 起 按 下 去 
的 。 


左边 的 STATE 大 概 有 多 少 行 呢 ， 以 每 秒 钟 捕捉 5 次 屏幕 并 对 应 做 出 5 次 反应 的 情况 下 ， 一 次 0.2 秒 的 周期 计算 ， 整 个 “ 沙 罗 曼 
蛇 ” 通 关 需要 27 分 钟 ，27x60x5=8100， 从 头 到 尾 演练 一 遍 都 需要 8100 个 STATE， 即 1366875KB， 大 约 1.3GB 的 样子 ， 这 仅仅 
是 前 面 的 状态 描述 所 需要 占有 的 空间 大 小 。 还 要 算 一 下 36 列 乘 以 一 个 1 字 节 的 大 小 ， 再 乘 以 8100 个 State， 大 约 284.7KB。 你 可 
能 觉得 这 个 数字 并 不 大 ， 反 正 对 于 一 个 2TB 大 小 的 主流 硬盘 来 说 算是 九 牛 一 毛 。 可 是 你 别 忘 了 一 点 哦 ， 这 些 STATE 都 是 以 像素 为 
单位 做 记录 的 ， 也 就 是 说 两 个 状态 中 哪怕 就 是 一 个 像素 不 同 都 不 能 算 作 同 一 个 STATE.…… 这 人 么 算 起 来 可 就 太 可 怕 了 ， 在 不 同 次 玩 
沙 罗 曼 蛇 的 时 候 ， 同 一 次 序 的 帧 (0.285) 都 远 远 不 止 一 种 可 能 性 ， 这 个 数量 就 很 难 估 计 了 ， 疏 怕 几 万 种 都 不 止 。 哪 怕 就 是 1 万 
种 ， 都 会 使 得 STATE 的 存储 空间 陡 增 至 12.7TB， 这 连 保存 都 是 问题 ， 就 别提 什么 训练 了 。 


2. 查 找 问 题 
按照 刚刚 的 假设 ， 这 么 大 的 STATE 的 描述 向 量 (172800 字 节 一 个 ) 当然 可 以 考虑 先 做 一 个 有 损 压缩 ， 只 要 不 是 用 哈 希 的 方 
法 ,做 了 有 损 压 缩 对 于 查找 就 是 有 利 的 。 


ANDA 


哈 希 肯定 是 万 万 不 可 取 的 ， 虽 然 看 上 去 用 MD5 和 SHA-1 这 类 算法 可 以 把 这 么 长 的 一 个 字符 串 压缩 到 只 有 几 十 个 字 节 。 但 是 
一 旦 用 了 这 样 的 方法 后 ， 原 本 非常 接近 的 两 种 State 束 会 出 现 两 个 完全 不 一 样 的 哈 希 值 。 


HAAR: 
md5(1234567 ,32) = eBO07f1lfcf82d132f9bbO018ca6738a1l9f 
,16) = f82d132f9bb018ca 


md5(1234567891,32) = 0f7e44a922df352c05c5f73cb40ba115 


md5(1234567891,16) = 22df352c05c5f73c 


看 两 个 数字 “1234567890” 和 “1234567891”， 虽然 我 们 知道 这 两 个 数 在 数值 上 的 差距 非常 小 ， 但 取 过 MD5 后 不 论 是 16 
字 节 的 还 是 32 字 节 的 ， 都 完全 看 不 出 两 者 有 什么 关系 。 这 样 在 State 的 泛 化 性 会 非常 不 好 ， 本 来 非常 相近 的 State 应 该 可 以 采取 类 
似 的 Action 殊 可 以 了 ， 但 是 现在 却 是 以 两 个 完全 不 同 的 State 出 现 ， 完 全 没 办 法 互相 “ 信 签 ”， 这 本 身 束 市 来 了 相当 多 的 “State 


TL 
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当然 这 么 大 的 数据 集 进 行 查 找 也 同样 需要 使 用 诸如 索引 一 类 的 东西 来 快速 找到 State 所 在 的 行 ， 可 是 普通 的 针对 字符 串 和 数 
字 的 B-Tree 索 引 、Hash 索 引 以 及 针对 榴 举 的 Bitmap 索 引 都 不 能 用 上 。 上 顺序 查 找 理 论 上 可 行 ， 但 是 时 | 间 上 实际 上 是 不 允许 的 。 所 
以 还 是 要 开发 一 种 基于 向 量 相似 度 的 论 引 结构 才 行 ， 如 果 开 发 不 出 来 也 是 个 问题 。 


3. 短 视 上 问题 


这 种 问题 在 这 种 方式 的 一 开始 几乎 残 葛 定 了 不 可 改变 的 基因 。 一 个 State 当 时 所 作出 的 Action 很 可 能 融 是 一 种 应 激 反 应 陈 的 
Action， 昌 然 在 这 一 瞬间 感 品 是 不 铬 ， 但 是 时 间 稍 微 一 长 残 会友 现 这 一 步 Action 可 能 会 导致 下 面 更 不 利 的 局 面 。 而 这 个 问题 在 
刚才 我 们 提供 的 这 种 模型 中 显然 并 没有 解决 ， 所 以 这 种 模型 只 适合 那 种 盘面 变化 比较 简单 ， 前 后 逻辑 关联 相对 较 弱 的 情况 。 


那 是 不 是 刚才 我 们 模型 整体 都 有 问题 呢 ? 


其 实 也 不 是 ， 这 个 模型 是 有 一 些 问 题 ， 但 是 模型 考虑 的 核心 元 素 没有 销 ， 问 题 企 于 如 何 总 结 和 归纳 一 个 空间 占用 小 、 碍 找 迅 
速 、 眼 光 长 远 的 算法 呢 ? 我 们 一 个 一 个 来 解决 ， 先 解决 其 中 最 为 天 键 性 的 问题 一 一 短视 问题 ， 因 为 除了 这 个 问题 以 外 ， 其 他 几 
乎 都 是 工程 性 问题 而 非 探索 性 数据 研究 问题 。 看 看 一 种 叫做 Q-Learning 算 法 的 乐 西 会 为 我 们 市 来 什么 。 


11.25 Q-Learning 算 法 
Q-Learning 算 法 的 思路 很 简单 ， 概 括 起 来 也 很 简洁 ， 融 看 这 样 一 个 表达 了 式 即 可 。 
O(S, a,) Q(s;, a,) + ax [^54 T YMAXO(S i415 d,4)— (S, a,)| 


听 听 日 话 解 释 一 下 思路 就 好 了 。 


首先 我 们 还 是 像 原 来 一 样 ， 得 到 了 在 时 间 序 列 上 的 Statei;、Action; 和 Rewardi 三 个 序列 ， 等 接收 完毕 后 把 它们 按时 间 顺 序 排 
好 。 然 后 从 头 到 尾 一 个 一 个 按照 这 个 逻辑 去 处 理 。 在 一 个 时 刻 t， 看 看 这 一 刻 输 入 的 st 和 at， 如 果 此 时 st 和 at 没有 对 应 的 Reward 
值 (也 就是 说 第 一 次 出 现 ) 那 残 直接 把 这 个 st 和 at 盾 入 表 中 。 


如 果 下 面 你 按 部 束 班 地 按照 统计 的 方法 去 做 ， 那 么 束 是 前 面 的 马尔 科 夫 决策 过 程 。 不 过 下 面 步骤 的 不 同 是 关键 ,请 注意 。 


如 果 当 你 发 现在 st+1 的 情形 下 ，at+1 所 有 的 可 能 性 中 有 一 个 比较 大 的 值 ， 即 在 st+1 的 情况 下 找到 那个 最 大 的 Reward 值 并 乘 
以 一 个 在 0 和 1 之 间 的 系数 Y， 用 这 个 值 加 上 st 和 at 这 一 步 本 应 得 到 的 Reward 值 r+1 同 时 减 去 前 一 步 的 Q (st，at) 值 来 更 新 
Q (st, at) 。 这 个 逻辑 其 实 融 是 为 了 避免 短视 现象 的 上 友 生 。 


Bl State; 7 
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Reward; 
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HARTAR, miü-—^7 State (st+1) 下 ， 一 个 有 着 更 多 回报 Reward 的 Action (at+1) 会 把 它 的 回报 值 Reward 向 前 
传 ， 传 给 前 一 个 State (s) ， 并 作为 由 这 个 state (s) 下 通过 该 Action (ay) 转移 到 st+1 的 这 个 行为 的 回报 值 的 一 部 分 。 


请 注意 ， 由 于 你 是 在 大 量 的 六 戏 局 中 获得 的 State 和 Action 的 序列 ， 并 把 它们 做 以 记录 ， 所 以 不 太 可 能 形成 一 个 像 上 图 那样 
的 独立 的 链条 。 而 你 友 现 ， 哪 怕 从 最 开始 在 一 个 相同 State 的 情况 下 ， 都 会 由 于 Action 转 化 到 不 同 的 State 上 去 ， 而 每 个 新 的 
State 具 有 同样 的 特性 一 一 它 也 能 由 于 不 同 的 Action 转 化 到 不 同 的 State 上 去 。 


State, 
Action, Action, Action, 
4 [2 li n 
State, State, State; 
Action, Action, Action, Action, Action, Action, 
K —100 —100 ] | 3 2 5 
State, State, State, State, State,, State; 


所 以 整个 模型 就 好 像 是 这 样 一 个 棵 树 ， 一 棵 极 宽 极 深 的 树 ， 学 习 象 棋 和 围棋 的 模型 在 这 点 上 尤为 明显 。 一 个 State 就 是 这 样 
一 个 树 上 的 节点 ， 当 做 了 一 个 Action 后 ， 状 态 就 转移 了 ， 就 等 于 从 上 向 下 开始 进入 这 棵 树 ， 李 圆圈 中 的 数字 代表 Reward。 当 我 
得 到 这 样 一 棵 树 的 时 候 ， 我 当然 是 期 望 看 到 在 这 个 Action 下 面 的 那些 状态 中 ， 哪 个 回报 最 大 我 就 选择 哪个 Action 一 一 这 个 判断 
逻辑 非 营 的 目 然 。 但 是 由 于 一 个 转移 样本 而 做 出 的 Reward 值 其 实 摘 述 非 党 片面， 简单 说 融 是 ， 你 在 玩 沙 罗曼 由 的 过 程 中 这 一 步 
为 了 吃 个 枪 而 导致 下 一 步 撞 死 的 话 ， 这 个 枪 的 意义 就 不 存在 了 一 一 例如 左边 这 两 个 分 支 就 是 类 似 的 情形 ， 最 后 -100 代 表 一 个 严 
重 的 繁 戒 。 所 以 下 一 步 产 生 的 奖励 值 或 者 惩罚 值 应 该 顺 着 这 棵 树 向 上 回溯 往 根 部 靠拢 ， 因 为 我 们 要 让 整个 一 条 “Action 链 ”看 
上 去 更 靠 谱 的 话 ， 那 就 是 寻找 靠近 根部 的 点 更 靠 谱 的 情况 ， 而 为 了 修正 这 个 评价 才 引 入 的 这 样 一 个 机 制 。 不 然 用 类 似 贪心 法 的 方 
式 去 做 的 话 ， 会 走 State1、Action1、9state2、Action3 这 样 一 个 路 径 ， 而 这 样 似乎 不 是 收益 最 好 的 途径 ， 我 们 用 肉眼 看 都 知道 最 
右 侧 的 两 条 路 径 比 它 要 强 。 注 意 ， 这 里 的 State3 或 State26 这 类 不 见得 是 第 3 个 或 者 第 26 个 出 现 的 状态 ， 这 只 是 代表 一 个 State 的 


标号 值 。 


Q(s,, aj) — Q(s, a)) + aX [rn + yMAXOX(s, 4, am) 7S, a;)] 
后 面 展开 就 可 以 写作 : 
O(s, a) *— (1-a)Q(s,, a) + aX [r+ »yMAXQY(Q(CS,, a,,)| 


比较 明显 地 可 以 看 出 来 ，a 这 个 系数 代表 了 对 远 期 收益 的 重视 程度 ， 如 果 取 得 小 一 些 ， 相 当 于 比较 注重 当前 的 收益 值 。 取 0 
那么 就 会 仅仅 看 到 从 一 个 转移 中 获得 的 Reward， 而 完全 忽视 远 期 传播 过 来 的 Reward; 取 1 则 完全 没有 重视 当前 已 经 获得 的 收益 
AE, mes TIE ALGa 7) 的 内 容 。y 表 示 对 远 期 Reward 的 重视 程度 ， 理 论 上 说 y 大 一 些 会 使 得 复杂 的 局 势 演 
化 中 远 期 Reward 向 树 根部 集中 的 趋势 会 明显 。 后 面 的 于 4% 人 (m0) 的 含义 就 是 找到 这 个 State 下 可 能 取得 的 最 大 的 Reward 

值 ， 比 如 State2 下 面 昌 然 两 个 状态 都 得 到 了 非常 严重 的 惩戒 (-100) ， 但 是 一 息 尚 存 啊 一 一 右边 还 有 个 1， 也 就 是 说 ， 转 化 到 

State2 这 个 状态 产生 的 Reward 其 实 是 可 以 采纳 Action3 带 来 的 1 的 。 收 益 看 最 大 的 那 一 项 ， 而 不 是 最 小 的 ， 因 为 在 众多 的 选择 中 
还 有 机 会 不 选 那个 最 小 的 ， 能 有 更 好 的 收益 没有 理由 去 选 那个 小 的 收益 项 ， 不 是 吗 ? 


State, 
22 s 0 
Action, Action, Action, 
0 0 i ML 
State, State, State, 
Action, Action, Action, Action, Action, Action, 
0 ( 0 0 0 C 0 lC 0 

State, State, State, State, State,, State, 


Action, 
1000 


State, 


注意 这 里 有 个 现象 ， 如 果 在 这 个 过 程 中 ， 即 便 我 无 法 获得 实时 性 的 Reward 一 一 也 残 是 如 果 没 办 法 做 到 每 次 做 一 个 Action 残 
获得 一 个 Reward， 在 这 种 情况 下 ， 在 最 终结 束 游戏 的 时 候 ， 只 要 把 一 个 较 大 的 正 值 Reward 放 在 最 后 一 个 状态 作为 Reward 时 ， 
理论 上 讲 整 个 树 也 能 够 通过 迭代 一 步 一 步 把 这 个 Action 链 学 习 出 来 。 反 正 束 是 通过 一 轮 一 轮 的 学 习 把 这 个 Reward 值 同上 传递 吏 
可 以 了 ， 那 当然 能 够 找到 这 条 最 合适 的 路 径 。 例 如 上 图 也 能 够 通过 Q-Learning 算 法 找到 


State, — Action, — State, — Action, — State, — Action, — State, 


这 样 一 条 路 径 的 ， 回 溯 会 把 Reward 值 向 上 传递 ， 使 得 在 前 面 碰 到 的 state 在 Q-Learning 算 法 的 学 习 下 会 让 那些 最 终 只 能 引 
导 到 获得 较 大 回报 路 径 的 State 看 上 去 更 为 “ 靠 谱 ”一 些 ,， 而 最 终 引 导 获 得 较 大 答 政 的 State 看 上 去 更 为 “不 靠 谱 ” 一 些 ， 通 过 这 
样 的 比较 可 以 让 机 器 人 按照 更 靠近 树 的 根部 的 一 些 State 残 已 经 能 够 看 出 来 哪 条 路 径 在 远 期 更 容易 获得 较 大 的 Reward。 这 个 


Reward 人 在 这 里 我 示意 性 地 给 了 一 个 1000， 但 是 不 是 说 必须 要 给 一 个 这 么 悬殊 的 值 才能 训练 出 来 ， 其 他 的 中 间 过 程 已 经 都 给 了 0 
了 ， 其 实 这 个 地 方 给 一 个 1 都 可 以 训练 得 到 结果 ， 因 为 哪怕 Reward 就 差 零点 几 也 是 可 以 在 MAXQ (st+1，at+1) 这 个 部 分 比 出 
大 小 并 进行 传递 的 。 

回 看 整个 训练 过 程 ， 你 会 友 现 套路 也 非 癌 清晰 。 人 在 某 一 步 获得 的 Reward 比 较 大 ， 那 么 残 推断 它 的 前 一 步 的 那个 state 和 
Action 比 较 靠 说 ， 从 而 提高 对 前 一 步 State 的 Reward 评 价 。 在 大 量 的 样本 训练 下 ， 那 些 经 常 有 反复 出现 的 有 着 高 的 Reward 的 状态 
会 补 大 量 验 证 和 强化 ， 从 而 学 出 一 些 靠 谱 的 路 径 来 。 这 些 路 径 由 一 系列 的 State 和 Action 构 成 ， 形 成 一 套 复 杂 的 决策 程序 。 


整个 这 个 部 分 讨论 的 内 容 都 属于 动态 规划 (dynamic programming) 的 范畴 ， 这 种 树 也 有 个 学 名 ,叫做 蒙特 卡 洛 树 
(monte carlo tree) 。 大 家 感 兴趣 的 话 可 以 去 找 一 下 相关 的 教科 书 ， 推 导 比 这 个 要 严谨 ， 也 更 为 复杂 一 些 。 


[1] Optical Character Recopgnhition， 光 学 字符 识别 技术 ， 将 图 片 、 照 片上 的 文字 内 容 ， 直 接 转 换 为 可 编辑 文本 的 软件 或 算法 。 


11.3 ”深度 学 习 中 的 Q-Learning 一 一 DQN 


使 用 TensorFlow 是 不 是 也 能 够 帮助 我 们 完成 类 似 的 Q-Learning 算 法 呢 ? 可 以 训练 吗 ? 答案 是 肯定 的 。 


DQN 惑 是 一 种 这 样 的 网 络 ， 全 称 为 Deep Q-Network， 使 用 一 个 深度 神经 网 络 来 拟 合 一 个 算法 。 以 前 我 们 见 到 的 例子 已 经 
非常 多 了 ， 定 义 一 个 网 络 结构 ， 定 义 一 个 损失 消 数 来 描述 误 和 麦 ， 最 后 迭代 的 结果 就 是 令 整个 网 络 的 损失 消 数 逐步 减少 到 足够 小 。 
那么 用 TensorFlow 也 应 该 是 同样 的 套路 ， 按 照 前 面 我 们 接触 过 的 各 种 各 样 奇 奇怪 怪 的 神经 网 络 所 忌 结 出 来 的 经 验 来 看 ， 应 该 是 
一 个 STATE 的 向 量 作 为 网 络 的 输入 ， 而 最 终 输 出 的 结果 是 一 个 ACTION 的 向 量 就 可 以 了 。 这 种 情况 下 ， 每 次 用 STATE 通 过 网 络 从 
而 获得 一 个 ACTION 的 输出 ， 用 网 络 中 复杂 的 权重 天 系 来 拟 合 这 个 复杂 的 决策 选择 过 程 。 可 是 这 里 有 个 奇怪 的 地 方 ， 束 是 好 像 我 
们 一 下 子 想不到 应 该 用 什么 乐 西 来 充当 损失 函数 ， 和 憾 么 来 描述 一 个 所 谓 的 “ 残 差 ”而 让 “ 残 差 ”经 过 凸 优化 癌 着 减 小 的 方向 去 运 
动 呢 ? 没关系 ， 我 们 还 是 可 以 踩 在 先贤 们 的 肩膀 上 来 看 世界 。 


根据 著名 数学 家 理 查 :贝尔 曼 !1 的 贝尔 曼 方 程 ， 可 以 有 这 样 一 个 推导 : 


O, (S,, A) = E| r,, + MaX Qa (Sui Aaaa) | S4, 


f 十 ] 
即 Q-Learning 的 收敛 过 程 束 是 一 个 不 断 迭 代 ， 把 整个 树 靠 下 部 分 的 Reward 向 靠 上 的 部 分 去 移动 的 过 程 ， 这 个 刚才 在 前 一 节 
中 已 经 看 到 了 。 
也 瓯 是 要 最 小 化 : 
2 


E r, + max On (po A, 194,41) B Q,(5,, 4,;0) 


Gi] 


或 者 直接 写作 最 小 化 : 


E ,-Q $,,4,;0) | 


这 个 6 融和 我 们 在 统计 学 中 用 的 那个 表示 条 件 的 6 是 一 个 含义 ， 表 示 一 个 参数 ， 用 来 摘 述 你 实验 环境 中 的 敏感 因素 。 简 单 襄 
迭代 计算 都 会 友 生 Reward 值 的 从 “叶子 ”向 “根部 ”的 传播 ， 而 这 个 误差 裤 定 义 成 了 传播 的 量 。 让 网 络 的 映射 天 系 


不 断 调整 ， 使 得 这 个 映射 满足 从 一 个 state 到 一 个 Action 的 映射 关系 ， 并 使 得 这 个 传播 的 量 最 小 化 。 在 一 些 参考 资料 上 也 会 写 : 


-— [^4 =| are 
ME, SEX 


Loss(w) = E[r + y max Q(s', a', w)- Q(s, a, w)] 


请 注意 ， 整 个 网 络 在 这 里 的 表达 式 被 写作 为 : 
w 融 不 用 襄 了 ， 融 是 来 泛泛 地 摘 述 整个 网 络 中 的 所 有 权重 参数 ; s 吏 是 state 回 量化 后 传 入 网 络 的 值 ，a 融 是 Action 的 摘 述 同 


Q (s, a, w) 
的 Action ， 应 该 是 这 样 


JW BB Ss 
|'Hx3ÉlB 


E 
EH 


TB 
一 个 结构 。 但 是 这 个 表达 式 和 我 们 要 的 方式 不 大 一 样 ， 我 们 还 需要 做 一 个 改造 。 
Os, a 1) 


Os, d) 


Aj, IX NESBSERBUZS T CM NAR, EBMER EX: 输入 一 个 state， 输 出 一 


DQN 


State 


既然 我 们 需要 这 样 一 个 功能 的 网 络 ， 那 就 构造 一 个 输入 为 State， 输 出 为 Action 的 网 络 。 只 不 过 Action 输 出 的 时 候 不 是 以 它 
输出 的 是 Q(s，a) 的 形式 ， 也 束 是 一 个 多 维 向 量 。 这 个 向 量 的 维度 有 n 个 ，n 是 Action 的 种 类 数量 ， 每 个 


的 原始 面 狐 出 现 的 ， 
或 者 你 干脆 理解 成 一 个 Reward 值 。 而 最 终 网 络 收敛 结束 后 ， 在 拟 合 的 过 程 中 会 输出 这 个 n 维 向量 ， 辐 量 的 哪 


维度 都 是 一 个 Q 值 ， 
那 就 选用 哪个 Action 作 为 决策 的 结 


个 维度 的 Q 值 最 高 ， 
思路 还 是 一 气 呵 成 的 ，so far so good, 不 过 技巧 性 问题 在 后 面 。 


Flix BA KR A 
第 一 个 问题 Loss(w) = E[r + y max Q(s', a', w)-Q(s, a, w) 意味 着 什么 ? 


这 个 损失 函数 的 含义 就 是 指 在 全 局 范围 内 ， 后 面 一 项 由 这 个 Action 引 导 到 的 Statet+1 的 Reward 评 估 值 (也 就 是 Q 值 ) ， 要 


尽 可 能 和 Statet 的 Reward 评 估 值 接近 。 那 也 就 是 意味 着 在 训练 的 过 程 中 ， 某 个 状态 Statet“ 不 是 一 个 人 在 战斗 ”，Statet 和 和 


Statet+1 要 “同时 ”经 过 这 张 网 络 来 构造 出 这 个 损失 阔 数 的 结果 ， 融 像 下 图 这 样 的 感 竞 。 
Q(s, d,) 
Q(s, d) 
State =» DQN 一 > O(s, as) 


O(s 3 a,) 


Os, di) ; 
Os, A>) 


State, = DON 一 > O(s,a;) — 


Q(s, a,) 


第 二 个 问题 ， 我 们 拿 到 的 原始 样本 是 各 种 各 样 的 不 带 有 任何 远见 的 Reward 标 记 值 的 Q (s, a) 。 这 种 Q (s, a) WRX 
么 直接 输入 到 网 络 中 去 的 话 ， 那 就 算是 彻底 毁 了 。 想 想 也 知道 ， 这 个 时 候 的 Q (s, a) 还 没有 通过 这 个 传播 过 程 把 远 期 的 收益 传 
播 到 靠近 树 根 部 的 State 状 态 去 ， 那 么 在 上 图 中 描述 的 这 个 差 值 最 小 化 也 就 没有 意义 了 。 这 里 说 的 Q (s, a) 指 的 是 前 面 Q- 
Learning 算 法 中 的 那个 表 ， 而 Q_ (s, w) 是 指 PDQN 网 络 的 表达 式 ， 要 素 由 输入 的 状态 sS 和 待定 系数 w 构 成 。 那 么 整个 网 络 
Q (s, w) 拟 合 出 来 的 是 一 个 稳定 的 State 到 Q 值 的 映射 关系 。 这 里 的 Q 还 没有 稳定 之 前 拟 合 的 结果 根本 不 能 保证 决策 的 可 靠 
性 ， 因 为 远 期 的 Reward 压 根 就 没 考虑 。 


怎么 办 呢 ? 还 能 怎么 办 ， 把 Reward 从 后 往 前 传 员 。 按 照 经 典 论文 《Playing Atari with Deep Reinforcement Learning) 


的 算法 说 明 ， 这 个 训练 过 程 大 致 是 这 样 的 加 
1) 初始 化 一 个 经 验 池 (experience replay) ， 就 是 样本 集 。 
2) 初始 化 刚才 我 们 襄 的 这 个 Q (s, w) 网 络 。 
3) 做 M 轮 下 面 的 工作 ， 相 当 于 做 M 个 mini batch, 
下 面 要 初始 化 一 个 盘面 xt。 
3.1) 以 一 个 概率 做 一 个 Action 一 一 at， 以 (1-s) 的 概率 选取 一 个 Q 值 最 大 的 Action。 


这 个 步骤 中 给 的 这 个 = 区 是 希望 帮助 机 器 有 一 定 的 概率 学 习 到 新 的 东西 。 如 果 每 次 都 是 取 Q 值 最 大 的 Action， 那 融会 陷入 一 


种 “先入 为 主 ” 的 困境 ， 那 在 最 初 的 阶段 残 有 极 大 的 概率 刚 15 执 行 了 一 个 Reward 并 不 大 的 Action， 然 后 丈 一 直 在 这 个 State 的 
情况 下 永远 去 尝试 用 这 个 Action 作 为 决策 结果 ， 这 当然 很 不 靠 谱 。 


3.2) 根据 xt 和 at 在 环境 中 的 反馈 获得 相应 的 Reward 值 rr 和 盘面 xt+1。 

3.3) $E lo o "这 个 序列 存放 在 经 验 池 里 面 。 

3.4) 从 经 验 池 中 随机 选择 部 分 序列 `'， 生 成 一 个 y 标 记 ，y 的 定义 原则 如 下 : 

“ 如 果 x+1 已 经 是 最 后 一 个 状态 (没有 发 现 有 下 一 个 状态 ) ， 那 么 y=+; 

-如果 x+1 不 是 最 后 一 个 状态 ， 那 么 了 max On 2; 站， 相当 于 进行 了 一 次 Q 值 的 向 前 (在 树 上 就 是 向 上 ) 传播 。 


3.5) 对 内 40 4: 0 用 梯度 下 降 法 做 优化 。 等 于 这 个 过 程 中 一 边 生 成 样本 ， 一 边 进行 Q 值 传递 ， 一 边 对 损失 函数 进行 优 
化 。 
以 上 部 分 要 重复 做 各 干 次 。 


这 样 一 个 描述 其 实说 的 是 在 线 学 习 的 概念 ， 也 叫 联机 学 习 ， 等 于 在 环境 中 一 边 通 过 试探 生成 新 的 学 习 样本 ,一边 学 习 调 整 策 
。 还 有 一 种 万 式 效率 更 高 一 些 ， 岂 离线 学 习 (或 者 叫 脱 机 学 习 ) ， 束 是 先 准 备 大 量 的 历史 数据 样本 作为 经 验 池 ， 然 后 直接 根据 
这 些 历史 数据 信息 来 学 习 。 


IR 


在 了 解 到 整个 DQN 的 工作 原理 后 会 友 现 ， 它 的 这 一 特点 是 与 以 往 我 们 使 用 深度 学 习 网 络 的 用 法 显得 最 不 同 的 地 方 ， 也 是 最 
有 趣 的 地 方 ， 大 家 好 好 体会 一 下 。 网 络 拟 合 出 来 的 是 一 个 评价 值 ， 训 练 过 程 是 伴随 着 那个 由 短视 慢 慢 通 过 Reward 传 播 来 形成 的 
不 短视 的 过 程 中 的 state 到 Q 最 大 值 的 映射 逻辑 。 而 损失 阔 数 是 摘 述 一 个 差距 ， 融 是 一 个 state 到 它 后 面 的 一 个 State 评 人 的 关 
iB, teem MCR TIA BASH P. 


Q-Learning 这 样 的 算法 和 实现 过 程 要 我 们 目 己 从 零 开 始 想 当然 会 很 困难 ， 让 我 们 来 搭建 环境 去 实现 这 个 过 程 也 会 非 单 化 时 
间 ， 但 是 不 要 索 ， 现 在 有 很 多 大 神 们 在 做 的 事情 融 是 帮 有 我 们 造 免费 的 “玩具 ”。 如 果 要 快速 上 手 接触 新 鲜 事 物 的 话 ， 当 然 还 是 通 
过 找 现 成 的 玩具 最 为 快捷 。 下 面 我 们 束 来 介绍 一 个 开源 项 目 Gym。 


11.3.1 OpenAl Gym 


2015 年 12 月 16 日 ， 特 斯 拉 CEO 埃 隆 . 马 斯 克 (Elon Musk) 和 创业 孵化 器 Y Combinator 总 裁 山姆 : 奥 特 曼 (Sam Altman) 
创建 了 人 工 智 能 公司 OpenAl， 并 表示 将 其 研究 成 果 开 源 分 享 给 研究 人 工 智 能 的 每 一 个 人 。 国 外 知名 科技 媒体 《 连 线 》 杂 志 发 表 
评论 文 草 ， 称 开源 的 OpenAl 的 成 立 将 人 工 智 能 研究 推 同 高 潮 ， 同 时 也 转变 了 目前 由 谷歌 、Facebook 等 巨头 引领 的 人 工 智 能 领 
域 吝 争 格 局 。 未 来 ，OpenAl 有 望 成 为 这 一 领域 的 监管 者 ， 将 其 引 向 对 人 类 更 为 安全 的 友 展 轨迹 上 来 。 


谷歌 各 Facebook 正 在 将 人 工 智 能 推 向 新 的 时 代 ，OpenAl 至 少 还 可 以 监督 它们 ， 当 然 还 会 监督 其 他 人 。 深 度 学 习 初 创 企业 
Skymind.io 的 联合 创始 人 克 里 斯 ` 尼 科 尔 森 (Chris Nicholson) it: “ 马 斯 克 和 OpenAl 已 经 看 到 了 人 工 智 能 的 势不可挡 ， 他 们 
唯一 希望 的 是 改变 其 友 展 轨迹 。 " 


2016 年 4 月 28 日 ，Open Al 对 外 发 布 了 人 工 智 能 一 款 用 于 研发 和 比较 强化 学 习 算 法 的 工具 包 OpenAl Gym， 正 如 Gym 这 词 
所 指 的 意思 (健身 房 ) 一 样 ， 在 这 一 平台 上 ， 开 发 者 可 以 把 自己 开发 的 Al 算法 拿 出 来 训练 和 展示 ， 获 得 专家 和 其 他 爱好 者 的 点 
评 ， 共 同 探讨 和 研究 。 不 管 马 斯 克 希 望 把 所 有 Al 技术 进行 开发 的 梦想 多 么 远大 和 浪漫 ， 其 背后 的 真正 动机 是 什么 ， 至 少 ， 在 
OpenAl Gym 里 ， 可 以 看 到 Al 开放 化 的 步伐 正在 渐渐 加 快 。 


dt 


如 果 OpenAl 能 够 坚守 他 们 的 使 命 ， 让 所 有 人 都 能 接触 到 新 技术 理念 ， 那 么 它 至 少将 是 对 谷歌 、Facebook 等 巨头 的 一 次 考 


最 近 ，OpenAl 研 究 人 员 John Schulman 与 NVIDIA 的 GPU 计 算 软 件 首席 技术 员 Mark Harris 分 享 了 一 些 关 于 这 个 组 织 的 细 


， 以 及 OpenAl Gym 将 如 何 让 Al 研 究 者 更 容易 地 设计 、 适 代 、 优 化 他 们 下 一 代 的 应 用 程序 。 


John 在 加 州 理工 大 学 修 习 物 理学 ， 随 后 在 加 州 大 学 伯克利 分 校 继续 深造 。 在 伯克利 ， 继 短暂 地 学 习 了 神经 科学 之 后 ， 他 师 
从 Pieter Abbee| 研 究 机 器 学 习 与 机 器 人 学 ， 最 终 将 强化 学 习作 为 他 的 主要 研究 兴趣 。 吕 


我 们 现在 可 以 登录 Gym 的 官方 网 站 https://gym.openai.com/ 来 获取 更 多 的 相关 信息 。 在 这 个 网 站 上 ， 我 们 将 看 到 很 多 有 
趣 的 研究 项 目 ， 主 要 是 游戏 或 类 游戏 场景 相关 的 。 


过 去 对 于 强化 学 习 研 究 无 法 局 效 地 开展 主要 是 有 很 多 非 算法 层面 的 问题 无 法 解决 ， 例 如 主体 和 环境 的 交互 这 个 环节 融 比 较 复 
杂 ， 要 记录 这 些 环境 向 量 ， 要 能 够 给 环境 有 效 的 Action， 要 能 够 在 比较 短 的 时 间 内 完成 大 量 的 样本 收集 和 测试 。 这 些 除了 要 对 

算法 有 相当 的 了 解 ， 还 要 对 环境 适 配 工作 的 工程 问题 有 相当 的 解决 能 力 才 行 ， 这 不 是 轻易 能 做 到 的 。 此 外 ， 和 传统 的 分 类 应 用 类 
的 场景 不 一 样 ， 强 化 学 习 没有 标准 化 而 且 高 质量 的 Benchmark 册 可 以 做 ， 这 也 是 阻碍 其 发 展 和 进步 的 一 个 因素 。 当 然 这 些 已 经 
在 Gym 的 帮助 下 有 了 一 定 程度 的 解决 ， 起 码 我 们 可 以 在 这 个 项 目 中 获得 大 量 有 效 的 高 质量 的 样本 数据 集 和 测试 集 。 
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在 这 个 项 目 中 有 这 样 一 些 实验 场景 ，“Classic Control" £&BE&ismBI2S, mox VS PAA EER R MgESEXIB 
是 直立 不 倒 的 。 


— — — — 
Episode 343 
说 明 : 
“Algorithmic” 模仿 计算 方法 。 


"Atati^ 是 模拟 考 一 代 的 Atati 游 戏 机 的 游戏 环境 的 。 


"Board games" 是 一 些 棋盘 游戏 ， 目 前 看 到 的 主要 是 围棋 。 


“Box 2D” 是 模拟 在 一 些 2D 环 境 的 沙 箱 中 做 连续 控制 类 的 。 


Episode 192500 


此 外 还 有 “MuJoCo”、““Toy text” SINR, REAR "Doom" (RRA) 这 类 “局 难度 ”游戏 的 实验 场景 。 


11.3.2 Atari 游戏 


现在 网 上 传 得 比较 痰 的 是 天 于 用 TensorFlow 玩 Atari 游 戏 的 一 些 论 文 ， 例 如 《Playing Atari with Deep Reinforcement 
Learning》 以 及 相关 的 一 些 实现 代码 https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner。 在 大 多 数 的 简单 游戏 上 ， 
基于 DQN 的 表现 已 经 超过 了 人 类 。 毕 竟 一 旦 算法 收 全 后， 这 种 东西 需要 的 “机 械 反 应 ”的 时 间 比 人 要 短 得 多 。 


Atari 游 戏 比 起 任天堂 的 FC 游戏 来 说 要 好 训练 一 些 。 笔 者 在 幼年 时 玩 过 一 次 Atari 洲 戏 (不 经 意 间 暴露 了 年 龄 ) ， 说 实在 的 ， 


现在 真 的 是 筷 了 当时 是 一 股 什么 力量 支撑 自己 在 玩 ， 反 正 现在 回 过 头 来 看 这 种 六 戏 有 点 太 抽 销 了 ， 里 面 的 各 种 物体 表示 太 过 简单 
(估计 是 为 了 节省 空间 ) ， 除 了 让 机 器 人 做 训练 简单 一 点 ， 几 乎 没 啥 好 玩 的 地 方 切 靠 脑 补 。 整 个 控制 器 残 是 一 个 竖立 的 


摇 杆 掌管 方向 ， 还 有 一 个 红色 的 按钮 管 “Action”。 


这 种 网 络 最 后 设计 起 来 残 是 要 拟 合 一 个 输出 ， 一 个 从 state 到 Action 的 输出 。 
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DQN 的 前 3 层 都 是 卷 积 层 用 来 提取 特征 ， 输 入 为 84x84x4 的 图 片 (MERRE), RESATSERE, MAREA 
方向 与 空 输入 一 一 9 个 状态 ， 和 是 否 按 红色 按钮 2 个 状态 ， 一 共 16 个 输出 。 具 体 细节 就 不 展开 了 ， 大 家 有 兴趣 自己 下 载 代 码 编译 
着 玩 吧 ， 代 码 的 位 置 在 https://github.com/openai/gym。 好 在 Gym 项 目 已 经 提供 了 很 好 的 Enviornment， 可 以 用 很 少量 的 代 
码 残雪 始 化 能 够 和 主体 互动 的 环境 以 提供 反馈 。 还 可 以 把 目 己 提供 的 算法 模型 上 传 到 该 网 站 去 以 供 世界 汽 围 内 的 爱好 者 研究 与 交 
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[[] 理 查 德 贝尔 曼 (Richard Bellman，1920 年 8 月 26 日 一 1984 年 3 月 19 日 ) ， 美 国 应 用 数学 家 、 美 国 国家 科学 院 院士 、 动 态 规 划 的 


[2] 为 了 简化 描述 ， 与 原文 表述 略 有 出 入 。 

[3] 来 源 于 tech.163.com， 有 删改 。 

[4] ” 基准， 参照 。 一 般 在 信息 领域 就 是 俗称 的 跑 分 或 者 刷 榜 ， 以 一 定 的 标准 数据 或 者 环境 作为 对 比 基 准 ， 不 同 的 产品 在 其 上 的 表 
现 作 为 评价 的 一 种 对 比 机 制 。 


11.4 人 小结 


本 章 我 们 简单 接触 了 强化 学 习 的 大 致 思路， 作为 一 个 完整 的 解决 机 器 人 自我 学 习 的 过 程 来 说 ， 强 化 学 习 是 一 套 行 之 有 效 的 严 
整 的 理论 体系 。 作 为 其 中 的 一 种 实现 方式 ，TensorFlow 提 供 了 一 些 离线 学 习 的 思路 ， 也 就 是 拿 着 大 量 的 样本 来 做 Batch 学 习 
i. 


以 目前 的 计算 能 力 来 说 ， 输 入 为 图 片 和 声音 ， 输 出 结果 为 具体 Action 的 整个 过 程 收 全 是 非常 慢 的 。 尤 其 是 Action 越 复杂 ， 
学 习 起 来 越 慢 ， 复 杂 度 是 几何 级 数 增长 的 。 所 以 在 理论 层面 没有 突破 的 情况 下 ， 如 果 想 要 训练 一 个 能 够 有 比较 高 胜率 的 “王者 采 
溜 ” 玩 家 机 器 人 ， 哪 但 是 一 个 “超级 玛丽 ”一 个 通天 的 机 器 人 都 需要 消耗 大 量 的 GPU 资源 ， 当 然 了 这 背后 都 是 无 法 估计 的 时 间 
和 人 金钱 。 


到 本 书 截稿 的 时 间 为 止 ， 笔 者 与 身边 的 小 伙伴 仍旧 在 研究 使 用 DQN 来 玩 FC 模 拟 器 或 对 奔 类 游戏 的 方法 中 ， 并 已 经 取得 了 一 


定 的 阶段 性 成 果 。 相 信和 在 不 久 的 将 来 我 们 也 会 有 更 多 的 内 容 可 以 与 大 家 分 享 。 


第 12 章 “对抗 学 习 


一 个 条 新 的 名 词 通 冲 都 会 让 人 感觉 昼 秘 。 我 们 对 不 了 解 的 乐 西 都 会 感到 陌生 ， 或 者 不 知 所 措 。 对 抗 学 习 也 是 这 样 一 种 从 名 字 
上 完全 无 法 判断 用 途 的 东西。 


我 们 现在 说 的 对 抗 学 习 通 常 特 指 生 成 对 抗 网 络 (generative adversarial networks, GAN) ， 在 2014 年 由 lan Goodfellow 
博士 提出 并 在 随后 的 几 年 作为 一 股 新 的 深度 学 习 热 潮 奔 涌 向 前 ， 一 时 间 各 种 GAN 的 变种 和 演进 版 本 如 雨后春笋 般 出 现 。 


由 于 GAN 的 出 现 比较 晚 ， 研 究 成 果 也 没有 CNN 或 RNN 多 。 公 开 的 资料 看 来 看 去 也 就 是 那儿 篇 经 典 的 论文 而 已 。 这 一 章 我 们 
束 试 着 讨论 一 下 对 搞 学 习 的 基本 重点 问题 ， 做 个 概要 性 了 解 好 了 ，。 


12.1 目的 


从 数据 科学 的 角度 来 说 ， 人 们 的 一 切 关 于 数学 的 研究 行为 都 是 为 了 解决 量化 和 认 知 的 问题 。 不 论 是 哪 种 方法 ， 只 要 它 是 科学 
的 那 就 万 变 不 离 其 示 。 


GAN 和 存在 的 目的 是 为 了 通过 一 定 的 手段 ， 模 拟 出 一 种 数据 的 概率 分 布 的 生成 器 (生成 手段 ) ， 使 得 这 种 概率 分 布 与 某 种 观 
测 数 据 的 概率 统计 分 布 一 致 或 尽 可 能 接近 。 可 以 说 ， 这 是 一 种 尝试 着 用 伪装 的 手段 ， 和 赁 空地 以 假 乱 真 地 生成 一 些 向 量 (FBS) 的 
技术 ， 也 算 作 Al 的 一 个 分 支 领域 ,而 且 听 起 来 似乎 确实 非常 有 趣 。 

最 简单 的 例子 ， 是 不 是 可 以 有 这 样 一 种 情形 : 假如 我 给 计算 机 一 些 红 玫 瑰 花 的 图 片 让 它 学 习 ， 然 后 通过 学 习 让 它 “ 赁 空 
地 ”生成 一 张 玫 瑰 伦 的 图 片 ， 这 张 图 片 不 是 刚才 学 习 样 本 中 的 任何 一 个 ， 但 还 要 让 我 能 够 较 大 概率 地 认为 这 张 玫 瑰 伦 的 图 片 是 真 
实 的 而 不 是 造 出 来 的 ?有 这 样 的 手段 吗 ? GAN 所 做 的 事情 与 这 非常 类 侯 。 


12.2 训练 模式 


在 这 个 工作 模式 中 ， 从 数理 和 统计 层面 去 解释 ， 这 个 模型 的 目的 是 要 生成 出 两 个 模型 ， 一 个 叫 G 模 型 (generative 
model) 和 一 个 D 模 型 (discriminative model) ， 即 生成 模型 和 判定 模型 。 这 两 个 模型 中 D 模 型 是 我 们 以 前 司空 见 惯 的 一 种 模 
型 ， 比 如 像 CIFAR-10 项 目 中 的 判断 模型 惑 是 典型 的 D 模 型 ， 用 来 提取 特征 判断 图 片 的 分 类 标签 。G 模 型 是 个 新 面孔 ， 它 就 是 用 来 
生成 样本 的 。 


我 们 融 以 图 片 为 例 ，D 模 型 的 目的 是 要 尽 可 能 不 要 误 判 图 片 的 分 类 ， 而 G 模 型 是 要 尽 可 能 根据 图 片 分 类 中 样本 向 量 的 统计 学 
特性 捏造 一 些 样本 图 片 ， 使 这 些 样本 能 够 顺利 通过 D 模 型 并 被 判定 为 正确 样本 。 这 里 就 有 个 问题 了 ， 如 果 D 模 型 的 能 力 很 强 一 一 
火眼金睛 ，G 造 出 来 的 图 片 都 能 识别 出 来 是 “ 假 的 ”， 那 么 就 说 明 G 这 个 网 络 比较 弱 ; 而 相反 ， 如 果 G 模 型 的 能 力 很 强 一 一 所 有 
捏造 的 图 片 都 能 让 D 模 型 误 认 为 是 “ 真 的 ”， 那 就 说 明 D 模 型 的 归纳 能 力 仍然 有 问题 一 一 没有 很 好 地 抓 住 分 类 的 本 质 。 那 么 怎么 
才 叫 训练 好 了 呢 ? 判断 标 准 是 什么 ”要 回答 这 个 问题 我 们 要 先 引 入 一 个 概念 ， 叫 做 二 元 极 小 极 大 博弈 (minimax two-player 


game) 问题 。 


12.2.1 二 元 极 小 极 大 博 完 


极 小 极 大 博 弃 问题 是 博 认 论 中 的 一 个 比较 基本 的 概念 ， 是 著名 数学 家 博 弃 论 蜡 往 冯 : 庄 依 曼 (Von Neumann) 提出 的 。 
为 了 通俗 易 懂 ， 我 们 还 是 用 具体 的 场景 化 的 拉 述 来 解释 一 下 什么 叫做 二 元 极 小 极 大 博 弃 问题 。 


假如 有 两 个 贫 吃 的 家 伙 来 分 岂 一 块 重 粹 ， 而 你 是 负责 给 他 们 分 友 的 人 ， 那 束 会 比较 厅 烦 了 。 这 里 强调 贫 吃 的 意思 是 措 ， 两 个 
人 对 万 案 评价 的 策略 是 一 致 的 ， 都 是 得 到 的 越 多 则 越 好 。 那 这 种 情况 下 ， 你 不 管 怎么 切 怎 么 分 ， 都 会 至 少 引 得 一 个 人 的 不 满 ， 他 
会 认为 目 己 分 到 的 那 块 量 糙 比 较 小 〈 哪 怕 是 小 一 点 点 ) 。 那 如 何 是 好 呢 ， 也 简单 ， 残 用 一 个 看 上 去 更 为 “公平 ”的 万 法 ， 让 这 两 
个 家 伙 都 参与 到 这 个 决定 博 弃 的 过 程 中 。 由 于 是 两 个 人 独立 参与 的 博弈 ， 博 琵 的 结果 是 两 个 人 都 会 认同 的 。 


我 们 称 这 两 个 家 伙 一 个 叫 A， 一 个 叫 B。 昔 先 让 A 来 切 量 糕 ， 而 后 让 B 移 来 选 。 我 们 把 几 种 可 能 产生 的 情况 列 在 一 个 表格 里 。 


B 选择 ，A 得 到 
A 切 两 块 一 样 大 小 E NE 
A 切 得 一 大 一 小 大 ,小 


对 于 心智 (对 于 大 小 判断 正常 ) 和 最 后 目的 (所 得 尽 可 能 大 ) 一 致 的 两 个 人 来 说 ，B 先 挑 则 一 定 会 挑选 那个 大 块 的 ， 而 留 给 
A 小 块 的 ， 这 指 的 是 其 中 的 “ 极 小 ”这 个 概念 ;而 A 在 切 的 时 候 由 于 其 主动 ， 所 以 要 尽 可 能 在 最 开始 保证 目 己 的 重 栋 尽 可 能 
这 是 “ 极 大 ”的 概念 。 而 “ 极 小 极 大 ”的 概念 就 是 A 已 知 B 会 选 大 块 的 ， 所 以 会 把 较 小 的 一 块 切 得 尽 可 能 大 一 些 ， 对 A 来 说 最 好 的 
结果 束 是 表格 中 上 面 的 “一 半 ,， 一 半 ” 的 情形 了 。 这 个 束 是 确定 平衡 点 位 置 的 思想 根源 了 。 


在 这 里 再 补充 一 个 叫做 纳什 均衡 (nash equilibrium) 的 博弈 论 概念。 纳什 均衡 是 一 种 荣 略 组 合 ， 使 得 同一 时 间 内 每 个 参与 
人 的 筑 略 是 对 其 他 参与 人 委 略 的 最 优 反 映 。 假 设 有 n 个 局 中 人 参与 博 奉 ， 如 果菜 情况 下 无 一 参与 者 可 以 独 目 行动 而 增加 收 葵 (BD 
为 了 目 身 利益 的 最 大 化 ， 没 有 任何 单独 的 一 万 愿意 改变 其 策略 ) ， 则 此 策略 组 合 被 称 为 纳什 均衡 。 所 有 局 中 人 策略 构成 一 个 策略 
组 合 (strategy profile) 。 纳 什 均 衡 ， 从 实质 上 说 ， 是 一 种 非 合作 博 弃 状态 。 


还 是 刚才 这 个 例子 ， 还 是 A 来 切 ，B 来 选 的 情况 。A 应 该 采用 什么 策略 呢 ?A 如 果 切 成 “一 半 ,， 一 半 ” 的 情形 ， 这 时 候 由 B 
选 ， 那 么 B 得 到 一 半 。 这 种 策略 是 A 得 到 一 半 ，B 也 得 到 一 半 ， 双 方 都 有 一 个 “ 尚 可 ”的 结果 ,或 者 说 即便 不 满意 但 是 选择 其 他 的 
方案 并 不 比 当前 的 方案 更 好 。 而 如 果 A 变 化 策略 但 B 不 变化 策略 ， 也 束 是 说 A 切 成 两 个 不 一 样 大 的 ， 而 B 仍 旧 会 拿 走 大 的 部 分 ， 则 
A 的 策略 变化 反而 会 减 小 目 己 的 收益 ， 所 以 A 没有 变化 策略 的 动机 。B 同 样 没 有 变化 策略 的 动机 ， 既 然 是 他 先 挑选 ， 为 了 收 蔓 最 大 
化 ,不 论 A 怎 么 切 肯 定 不 会 选择 较 小 的 那 一 个 。 所 以 A 切 成 “一 半 ， 一 半 ” 的 策略 属于 纳什 均衡 的 状况 。 


说 到 这 里 我 想起 一 个 有 趣 的 历史 故事 ， 这 事情 说 起 来 是 在 北宋 时 期 。 北 宋 这 个 朝代 在 大 多 数 人 的 眼 里 可 能 更 多 的 听 说 的 是 一 
些 例如 “ 泻 渊 之 盟 ”、 “请 康之 耻 ” 的 屈辱 历史 ,或 者 是 “梁山 起 义 ”。、 “方腊 造反 ”一 类 的 社会 动荡 。 但 是 北宋 总 体 从 治国 上 
还 是 涌现 出 一 大 批 极 具 智慧 的 治世 能 臣 的 一 一 赵普 、 寇 准 、 张 齐 贤 川 、 包 拯 、 司 马 光 、 王 安 石 、 欧 阳 修 、 范 仲 淹 等 。 其 中 在 宋 
真宗 时 期 张 齐 贤 有 过 这 样 一 次 办 案 经 历 。 有 这 么 两 位 皇 亲 是 兄弟 关系 ， 由 于 分 家 庭 财 产 闹 起 了 纠纷 。 双 方 都 说 自己 分 得 太 少 对 方 
分 得 太 多 ， 所 以 就 闹 到 官府 。 但 是 皇族 之 间 的 纠纷 地 方 官 们 肯定 是 不 敢 轻易 插手 的 ， 得 罪 了 谁 都 吃 不 了 兜 着 走 。 直 到 事情 闹 到 了 
真宗 的 面前 ， 皇 帝 也 没有 办 法 做 判断 ， 手 心 手 背 都 是 肉 ， 向 着 谁 都 不 好 。 无 奈 的 皇帝 把 事情 告诉 了 张 齐 贤 ， 张 齐 贤 就 主动 
承包 这 个 断案 的 工程 。 张 齐 贤 这 个 时 候 已 经 是 枢密 副 使 了 ， 在 宋朝 就 相当 于 我 们 俗称 的 宰相 。 然 后 张 齐 贤 就 把 诉讼 双方 找 
来 问 : “你 们 是 不 是 都 认为 对 方 分 得 的 财产 多 ， 自 己 分 得 的 财产 少 ? ”双方 都 说 是 。 张 齐 贤 就 说 : “ 那 OK， 你 们 立 个 字 据 签名 
画 押 ， 三 天 以 后 我 来 宣判 。” 等 双方 立 好 字 据 后 张 齐 贤 最 后 宣判 : “你 们 两 家 既然 都 觉得 对 方 的 财产 多 ， 那 就 各 自 搬家 到 对 方 的 
府 娜 里 去 ， 只 许 带 人 不 许 带 财产 。 房 契 田 契 双 方 做 个 交换 就 行 了 。 既 然 你 们 都 觉得 对 方 的 财产 多 ， 那 这 样 你 们 两 家 肯定 就 都 满意 


at 六 


Jf. ”然后 又 派 了 不 少 官吏 和 家 本 监督 他 们 搬家 。 两 兄 有 真 是 有 震 难 言 ， 可 是 画 押 的 字 据 又 在 张 相 和 仓 的 手 上 ， 不 敢 反 悔 ， 也 不 敢 
上 告 ， 只 得 认 了 。 


插播 的 这 个 小 故事 是 不 是 很 有 趣 呢 ?其 实在 这 个 案例 中 ， 两 个 旦 杀 只 不 过 是 都 想 额 外 多 得 到 一 些 财产 或 者 从 对 万 那里 多 分 得 
到 一 些 财产 而 已 ， 他 们 并 不 是 真 的 认为 对 万 的 财产 比 目 己 多 。 当 然 了 ， 如 果 事 实 上 真 的 是 双 万 都 党 得 对 方 的 财产 比 目 己 多 ， 那 只 
可 能 是 双方 对 于 财产 的 估算 手段 不 一 样 而 导致 的 偶 关 了 。 好 了 了， 故事 残 讲 到 这 里 ， 这 也 是 博弈 论 泡 畴 中 的 一 个 小 案例 ， 大 家 想 系 
统 学 习 博 弃 论 的 话 还 是 要 去 看 经 典 的 书籍 。 我 们 言 归 正 传 继 续 讲 对 抗 学 习 。 


12.2.2 ”训练 


从 二 元 极 小 极 大 博 认 的 观点 来 看 ， 冯 方 要 达到 一 个 都 比较 “ 记 ” 的 平衡 应 该 是 一 个 类 似 于 “满意 度 最 大 化 ”的 过 程 ， 双 万 都 
别 搞 得 六 差 了 。 那 么 在 对 抗 网 络 模型 中 融 是 让 G 网 络 生成 的 样本 有 一 半 可 以 通过 D 网 络 的 检测 ， 而 有 一 半 无 法 通过 检测 。 双 方 在 
这 个 过 程 中 不 断 调整 自己 的 参数 进行 伪造 和 反 伪 造 的 对 抗 ， 对 抗 网 络 也 因此 得 名 。 


这 样 一 种 检验 方式 不 由 得 让 我 想起 南北 朝 时 期 著名 的 暴君 一 一 赫 连 勃 勃 史 用 过 一 种 类 似 的 手段 来 强化 兵器 制造 和 筑 成 术 的 
应 用 。 在 其 筑 造 统 万 城 B 的 时 候 ， 命 令 工 匠 们 制造 兵器 。 据 《 晋 书 . 赫 连 勃勃 载 记 》 记 载 “ 阿 利 性 尤 工 巧 ， 然 残忍 刻 暴 ， 乃 蒸 土 


筑城 ， 锥 入 一 寸 ， 即 杀 作 者 而 并 筑 乙 ”。 大 概 意 思 束 是 筑城 的 土 都 经 过 蒜 融 ， 贷 成 后 用 铁 锥 刺 土 法 检验 其 硬度 ， 凡 刺 进 一 斗 ， 便 
杀 红 者 ; 凡 刺 不 进去 便 杀 刺 者 。 据 说 城 坚 硬 可 以 磨 刀 伏 。 


不 知道 这 个 暴君 是 不 是 具备 这 样 的 学 术 思 想 ， 但 是 他 的 逻辑 束 是 说 在 这 样 一 个 竞争 的 环境 中 是 可 以 同时 得 到 极为 坚固 的 城址 
和 极为 尖 利 的 刀 优 的 。 在 工程 标准 不 好 确定 的 情况 下 ， 这 可 能 也 不 失 为 一 种 好 的 标准 。 不 过 老实 ， 讲 以 我 有 限 的 眼界 大 概 只 能 做 
这 样 一 个 判断 ， 一 种 双方 竞争 中 产生 的 势均力敌 的 对 抗 性 模型 应 该 是 穷尽 了 当时 双方 最 好 的 水 平 来 构成 的 平衡 结构 ， 是 一 种 全 
局 “最 努力 ”的 评价 结果 。 


我 们 回来 骨 看 GAN 的 模型 ， 如 图 所 示 ， 左 侧 的 这 个 束 是 D 网 络 ， 通 过 复杂 的 浮 数 映射 过 程 让 一 个 图 片 的 向 量 x 在 通过 后 形成 
一 个 分 类 标签 。 石 侧 这 个 部 分 表示 一 个 z 向 量 通 过 一 个 网 络 然 后 将 输出 一 个 x 向 量 ， 使 得 它 可 以 通过 D 网 络 的 检测 。 评 价 立 数 写 出 


来 是 这 样 : 
min max V (D,G) = E, paa log D(x) ] + E-r [log - D(G(z)))| 
其 中 的 x~ Pdata (x) 和 z ~ Pz (z) 指 x 和 和 z 分 别 满足 各 目的 分 布 律 ; 


这 里 的 D(x) 是 指 真 实 的 图 片 被 判断 为 真实 的 概率 ; 


这 里 的 G (z) 是 指 一 个 z 噪 声 输 入 到 G 网 络 ， 并 输出 一 个 图 片 的 构造 过 程 ; 
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D (G (z) ) 是 指 由 G 网 络 生成 的 图 片 ， 被 识别 为 真实 图 片 的 概率 。 


D (x) 和 1-D (G (z) ) 各 目 取 了 对 数 以 后 会 各 目 产 生 一 个 负 值 ， 可 以 看 出 P (x) 和 1-D (G (x) ) 有 任何 一 个 接近 0 的 
话 都 会 产生 一 个 绝对 值 非 单 大 的 负 值 ， 导 致 评价 V (D, G) RR. 


在 训练 的 过 程 中 ，D 网 络 和 G 网 络 是 交 蔡 进行 训练 的 ， 两 者 的 目的 也 不 一 样 。D 的 训练 是 希望 尽 可 能 好 地 正确 提取 x 的 特征 ， 
增 大 正确 判断 的 概率 D (x) ; G 的 训练 是 希望 尽 可 能 伪造 出 一 些 图 片 让 D 误 以 为 是 真 的， 也 殊 是 增 大 1-D (G (2). 


而 实际 上 Pdata (x) 和 Pz (z) 吻合 的 时 候 是 会 有 最 优 解 的 。 这 个 地 方 我 们 就 定性 展开 一 下 也 很 快 能 得 到 这 个 结论 ， 这 相当 
于 在 求 In x+n (1-x) 的 最 大 值 ， 等 价 于 求解 * “ 
一 个 开口 向 下 的 抛物 线 ， 极 值 的 位 置 是 x= 的 位 置 。 


In x In(1—x 


“的 最 大 值 ， Rage” e 的 最 大 值 ， 求 解 x (1-x) 的 最 大 值 。 这 是 


可 能 大 家 也 看 天 了 ， 人 在 这 样 的 网 络 模 型 中 是 没有 损失 立 数 的 概念 的 ， 而 是 为 了 寻求 一 个 最 大 值 。 在 整 本 书 里 也 就 只 有 这 样 一 
个 小 分 支 领域 里 没有 损失 陪 数 ， 但 是 有 一 个 待 优化 的 评价 立 数 ， 那 么 等 于 是 对 这 个 评价 函数 用 梯度 上 升 的 万 法 做 “四 优化 ”。 其 
实 很 好 理解 ， 相 当 于 头 朝 下 拿 着 大 顶 看 一 个 凸 消 数 ， 损 失 消 数 越 小 的 情况 相当 于 评价 函数 越 大 的 情况 ， 一 个 是 误 笑 的 大 小 ， 一 个 
是 收益 的 多 少 ， 这 样 理解 束 可 以 了 。 过 程 也 比较 人 简单: 


ORE: 


Yo -y log D(x” ) + log|1 -D(G(z")) | 


i=] 


再 做 1 次 : 


] n 
V 


"3 log|1— D| G( z” 


重复 做 这 个 过 程 若 干 次 ， 次 数 是 一 个 指定 的 整数 。 


这 里 的 表达 式 虽 然 看 起 来 复杂 ， 但 是 实际 上 跟 损 失 消 数 更 新 的 过 程 很 类 似 ， 对 评价 沙 数 求 导 数 ， 然 后 用 梯度 上 升 来 更 新 。m 
是 指 样 本 个 数 ， 做 k 次 更 新 的 是 D 网 络 的 w (公式 上 写 的 是 9d) ， 做 1 次 更 新 的 是 G 网 络 的 w (公式 上 写 的 是 9g) 。 


不 过 GAN 也 是 有 问题 的 ， 其 中 一 个 比较 重要 的 问题 是 不 收敛 问题 (non-convergence) 。GAN 网 络 的 目的 是 做 一 个 D 网 络 
和 G 了 网络 的 纳什 均衡 ， 然 而 只 有 保证 评价 函数 是 止 函 数 的 情况 下 才能 保证 纳什 均衡 ， 换 句 话说 融 是 这 个 函数 可 能 会 收敛 到 一 个 令 
我 们 不 满意 的 牌 斜 的 状态 (不 是 50% 的 检测 通过 率 ) 。 这 篇 论文 的 英文 原版 是 《Generative Adversarial Networks) , F#m 
是 大 神 lan Goodfellow 和 他 的 小 伙伴 们 ， 大 家 有 兴趣 可 以 下 载 这 篇 GAN 领域 的 开山 力 
作 https://arxiv.org/pdf/1406.2661.pdf。 


不 管 怎么 样 ， 虽 然 GAN 在 尝试 的 过 程 中 有 着 这 样 或 那样 的 问题 ， 它 仍然 为 我 们 市 来 了 很 多 新 的 东西 ， 尤 其 是 这 种 构造 模型 
的 对 抗 方 法 ， 这 足以 让 我 们 眼前 一 亮 了 。 
[1] 北宋 著名 政治 家 ， 先 后 担任 通 判 、 枢 密 副 使 、 兵 部 尚书 等 要 职 。 
[2] 赫 连 勃勃 (381 年 一 425 年 ) , RAAHAA, TARAA (又 称 赫 连 夏 ) 建立 者 。 
3] 统 万 城 为 东晋 时 南 匈 奴 贵 族 玉 和 连 皂 过 建 立 的 大 夏 国都 城 遗 址 ， 也 是 匈奴 族 在 人 类 历史 长 河中 留 下 的 唯一 一 座 都 城 遗 址 ， 是 中 
国 北方 较 旱 的 都 城 。 


M 论文 中 说 在 其 实验 中 令 k=1。 


12.3 COAN 


如 果 GAN 的 基本 思路 没有 问题 ， 那 么 CGAN 的 概念 应 该 也 不 难 理解 。 


Discriminator D(x\y) 


Generator 


cc) (© | | 
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条 件 生成 式 对 抗 网 络 (CGAN, conditional generative adversarial networks) 是 对 原始 GAN 的 一 个 扩展 ， 生 成 器 和 判别 
器 都 增加 额外 信息 y 为 条 件 ，y 可 以 是 任意 信息 ， 例 如 类 别 信息 或 者 其 他 模 态 的 数据 。 通 过 将 额外 信息 y 输 送 给 判别 模型 和 生成 模 
型 ， 作 为 输入 层 的 一 部 分 ， 从 而 实现 条 件 GAN。 在 生成 模型 中 先 验 输入 噪声 P (z) 和 条 件 信息 y 联 合 组 成 了 联合 隐 层 表征 。 对 搞 
训练 框架 在 隐 层 表征 的 组 成 方式 方面 相当 地 灵活 。 类 似 地 ， 条 件 GAN 的 目标 函数 是 带 有 条 件 概 率 的 二 元 极 小 极 大 博 蛮 : 


min uod V (D, G) 一 steps) | log D(x | y)| E E zP) |log(l D(G(z | »))| 


跟前 面 传统 的 GAN 的 评价 函数 相 比 


- max V (D, G) = E, pis, [log D) | Ezp- [log - D(G(z)))| 


差别 并 不 大 ， 仅 仅 是 在 D 网 络 和 G 了 网 络 上 加 了 条 件 。 


了 解 过 朴素 贝 叶 斯 的 读者 朋友 对 这 样 的 写法 应 该 不 会 感到 非 党 陌生 。 它 工作 起 来 的 方式 也 比较 好 理解 ， 融 是 在 D 网 络 和 G 网 
络 分 别 进行 处 理 的 过 程 中 ， 让 输入 加 入 一 个 y 同 量 。 加 入 一 个 y 向 量 会 有 什么 影响 呢 ? y 相 当 于 是 一 个 有 标注 功能 的 向 量 ， 也 融 是 
相当 于 我 们 在 前 几 章 看 到 的 P (x|6) 中 的 9 一 一 是 一 回 事 儿 。 这 种 限制 或 者 说 参数 的 出 现 会 让 网 络 学 习 到 在 不 同 参 数 的 情况 下 ， 


生成 规则 的 不 同 。 


我 们 来 看 例子 ， 例 如 在 M NIST 数 据 集 上 以 类 别 标签 为 条 件 (one-hot 编 码 ) 训练 CGAN， 可 以 根据 标签 条 件 信 息 ， 生 成 对 
应 的 数字 。 和 后 成 模型 的 输入 是 100 维 服从 均 久 分布 的 噪声 向 量 ， 条件 变量 y 是 类 别 标签 的 one-hot 编 码 。 噪 声 z 和 标签 y 分 别 映射 
到 隐 层 〈200 和 1000 个 单元 ) ， 在 映射 到 第 二 层 前 ， 联 合 所 有 单元 。 最 终 有 一 个 3igmoid 生 成 异型 的 输出 (784 维 ) ， 即 28x28 
的 单 通道 图 像 。 这 个 时 候 的 x 就 是 指 输入 的 MNIST 中 表示 某 一 个 数字 的 图 片 同 量 ，y 就 是 0 ~ 9 的 类 别 标签 one-hot 编 码 向 量 ， 输 
出 是 该 样本 来 自 训 练 集 的 概率 。 
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除 此 之 外 CGAN 还 可 以 应 用 于 多 模 态 学 习 ， 比 如 用 于 图 像 目 动 标 注 。 目 动 标注 图 像 (automated tagging of images) , 
使 用 多 标签 预测 。 使 用 CGAN 生 成 tag-vector 在 图 像 特征 条 件 上 的 分 布 。 数 据 集 : MIR Flickr 25000 dataset! ‘。 语 言 模型 : 训 
练 一 个 skip-gram 模 型 ， 带 有 一 个 200 维 的 词 向 量 ， 这 个 就 不 是 one-hot 了 ， 因 为 可 以 同时 出 现 多 个 位 上 是 “1” 的 情况 。 


(1) 生成 模型 输入 /输出 
输入 : 
唆 声 数据 100 维 =>500 维 度 ， 


图 像 特征 4096 维 =>2000 维 ， 


输出 : 

生成 的 词 向 量 (200 维 的 词 向 量 ) 
(2) 判别 模型 的 输入 /输出 

输入 : 


500 维 词 向 量 ， 


1200 维 的 图 像 特 征 。 
输出 如 下 图 所 示 ， 第 一 列 是 原始 像 ， 第 二 列 是 用 户 标注 的 tags， 第 三 列 模型 G 生 成 的 tags。 


User tags + annotations Generated tags 


taxi, passenger, line, 


montanha, trem, transportation, railway 
inverno, frio, peopele, station, passengers, 
male, plant life, tree, railways, signals, rail, 


structures, trans-port, car | rails 


chicken, fattening, 

cooked, peanut, cream, 
food, raspberry, cookie, house, made, 
delicious, homemade bread, biscuit, bakes 


creek, lake, along, 
near, river, rocky, 

water, river treeline, valley, woods, 
waters 


love, people, posing, girl, 
people, portrait, female, | young, strangers, petty, 
baby, indoor women, happy, life 


其 实在 CGAN 的 应 用 中 我 们 也 能 看 到 ， 不 光 是 图 片 ， 文 字 也 可 以 进行 “伪造 ”。 这 种 对 搞 学 习 的 方式 使 得 所 有 的 传统 深度 学 
习 的 输入 样本 (向 量 ) 都 可 以 成 为 可 以 生成 的 东西 。 而 且 CGAN 对 GAN 进 行 扩 展 的 方式 不 知道 大 家 有 没有 注意 到 ， 那 就 是 引入 
条 件 y 之 后 可 以 在 训练 的 过 程 中 让 模型 学 习 多 种 不 同 分 类 的 样本 生成 过 程 ， 根 据 one-hot 编 码 生 成 不 同 的 指定 类 别 的 对 象 ， 而 不 
再 是 像 GAN 一 样 只 能 判断 输入 是 否 为 某 一 种 或 一 类 的 这 样 一 个 命题 。 这 是 一 件 非 常 有 趣 并 值得 尝试 的 事情 。 


1] 官网 位 置 : http://press.liacs.nl/mirfl ickr/。 


12.4 DCGAN 


还 有 一 种 新 的 GAN 网 络 族 的 变种 ， 叫 做 DCGAN (deep convolutional generative adversarial networks， 深 度 卷 积 生成 
对 抗 网 络 ) 。 在 2016 年 有 一 篇 著名 的 论文 《Unsuperv-ised Representation Learning with Deep Convolutional Generative 
Adversarial Networks》 论 述 过 一 些 相关 的 研究 工作 成 果 。 


DCGAN 这 篇 论文 的 提出 看 似 并 没有 很 大 创新 ， 但 其 实 它 的 开源 代码 现在 越 来 越 多 地 被 使 用 和 借鉴 ， 包 括 笔者 在 项 目的 工作 
中 也 在 尝试 应 用 它 。 在 GAN 进 化 的 过 程 中 有 很 多 里 程 碑 式 的 研究 成 果 ,，LAPGAN (laplacian pyramid of adversarial 
networks， 拉 普 拉 斯 金字 塔 生成 式 对 抗 网 络 ) [就 是 其 中 之 一 。LAPGAN 具 有 很 多 优良 的 特性 ， 生 成 图 像 的 物体 结构 更 清晰 ， 
物体 边界 更 显著 。 而 DCGAN 则 更 具有 和 鲁 棒 性 ， 也 就 是 说 DCGAN 指 出 了 许多 对 于 GAN 这 种 不 稳定 学 习 方 式 重要 的 架构 设计 和 针 
对 CNN 这 种 网 络 的 特定 经 验 。 


1) 既然 之 前 有 一 种 叫做 Strided Convolutional Networks 的 网 络 可 以 从 理论 上 实现 和 有 pooling 的 CNN 一 样 的 功能 和 效 
果 ， 那 么 strided Convolutional Networks 作 为 一 个 可 以 完全 可 微 的 Generator G， 这 样 在 GAN 中 会 表现 得 更 加 可 控 和 稳定 。 
大 家 不 要 小 看 这 个 “可 微 ”， 因 为 可 微 是 个 非常 重 要 的 特性 ， 它 能 让 评价 国 数 或 者 损失 国 数 有 比较 好 的 收敛 效果 。 


2) 本 来 Facebook 的 LAPGAN 中 指出 Batch Normalization (BN， 批 归 一 化 ) 被 用 在 GAN 中 的 D 上 会 导致 整个 学 习 的 月 
溃 ， 但 是 DCGAN 中 则 成 功 将 BN 用 在 了 G 和 D 两 个 网 络 上 。 这 些 工 程 性 的 突破 给 人 带 来 了 很 多 的 惊喜 ， 也 是 由 于 这 种 理论 被 验证 
使 得 更 多 人 选择 DCGAN。 


3) 他 们 在 Visualize Generative Models (可 视 化 生成 模型 ) 也 有 许多 贡献 。 比 如 他 们 学 习 了 ICLR 2016 论 文 《Generating 
Sentences From a Continuous Space》 中 的 interpolate space (空间 算 改 ) 的 方式 ， 将 生成 图 片 中 的 中 间 隐 含 状态 都 做 了 显 
示 ， 这 样 可 以 看 出 图 像 逐 渐 演 变 的 过 程 。 

不 知道 大 家 有 没有 体会 到 ， 这 几 点 是 非常 重要 和 关键 的 。 在 前 面 介绍 的 传统 的 GAN 网 络 上 是 有 着 一 些 先 天 障碍 的 ， 就 是 它 
的 评价 函数 不 是 一 个 标准 的 凹 冰 数 ， 不 仅 不 是 凹 阔 数 而 且 不 可 微 ， 所 以 训练 的 过 程 中 就 会 出 现 不 能 稳定 向 一 个 方向 收敛 的 问题 。 
而 在 DCGAN 里 函数 的 可 微 起 码 可 以 让 函数 平滑 收 伍 。 在 这 里 稍微 补充 一 下 关于 可 微 和 可 导 的 解释 ， 这 样 大 家 可 以 有 点 感性 认 


] 只 。 


以 一 个 一 元 尔 数 y=f (x) 为 例 ， 可 微 是 所 它 连续 ， 这 种 性 质 比 不 可 微 的 函数 要 好 ， 因 为 如 果 函 数 不 连续 的 话 ， 那 么 用 运 代 
法 去 试探 其 左右 的 高 低 束 会 困难 得 多 。 比 如 一 个 分 段 浮 数 : 


l, x>=0 
—l, x<0 


XR — 1 TEX - OFAN) HE BREN 


HZ) BAB, BACRRATHMIRAUS SIRE, BLASER XER— 


CHARS. MR-DA REA (AAAS — MAF BL LERNER ENA 
ANIT ARRERA Ee. 


而 可 导 的 要 求 则 更 为 奇 刻 ， 它 要 求 这 个 函数 的 曲线 更 为 圆滑 不 能 出 现 “ 锋 利 ” 的 转角 。 比 如 我 们 以 前 接触 过 的 ReLU 函 数 ， 
束 是 一 个 典型 的 处 处 可 微 但 是 在 x=0 处 不 可 导 的 遂 数 。 因 为 可 导 要 求 在 任何 一 个 点 的 左右 两 侧 消 数 导 数 的 极限 值 是 一 样 的 。 


ReLU 显 然 不 是 ， 在 0 的 左 侧 导 数 为 0， 右 侧 导 数 为 1。 


10 
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x: -0.035340373 y: -0.035340373 


10 15 — 20 25 3 


我 们 继续 说 论文 《Generating Sentences From a Continuous Space》 中 所 摘 述 的 一 些 重 要 成 果 。 在 实验 中 ， 他 们 也 将 


向 量 计 算 运 用 在 了 图 像 上 ， 得 到 了 如 下 的 一 些 结果 。 


smiling neutral 


smiling man 
woman woman 


man man woman 
with glasses without glasses without glasses 


Results of doing the 
same arithmetic in 
pixel space 


以 第 一 组 图 形 为 例 ，“smiling woman” 一 一 微笑 的 女人 ，“ 减 去 ”一 个 “neutral woman” 一 一 中 性 的 女人 ， 再 “加 
上 ”一 个 “neutral man” 一 一 中 性 的 男人 ， “等 于 ”一 个 “smiling man" 微笑 的 男人 。 大 致 上 可 以 这 样 理解 ， 这 种 计算 就 好 
像 企 “情绪 ”这 个 维度 上 用 smiling 表 示 1， 用 neutral 表 示 0， 在 性 别 这 个 维度 上 用 man 表 示 1， 用 woman 表 示 -1 一 样 。 情 绪 这 


个 维度 一 次 减 一 次 加 都 是 中 性 ， 所 以 结果 仍旧 是 smiling; TESIWZiwomanjZ:womantS]— T Fithian, FIN Emansit e 
BHR T o 


与 监督 学 习 相 比 ，CNN 在 无 监督 学 习 上 的 进展 缓慢 。 这 篇 论文 结合 CNN 在 有 监督 学 习 方 面 的 成 功 经 验 以 及 无 监督 学 习 的 特 
凡 提 出 一 类 被 称 为 深度 卷 积 生成 对 搞 网 络 (DCGANs) 的 模型 ， 分 别 使 用 生成 模型 和 判别 模型 ， 从 物体 物件 到 场景 图 像 学 习 到 
一 种 层次 的 表征 。 最 后 ， 使 用 学 习 到 的 特征 实现 新 任务 一 一 也 束 是 剖 明 它们 可 以 用 于 生成 图 像 的 表征 。 


无 监督 学 习 模 型 用 来 学 习 表 征 ， 而 将 其 结果 用 于 有 监督 学 习 。 通 过 GAN 构 建 表征 ， 然 后 重用 部 分 生成 模型 、 判 别 模型 作为 
有 监督 学 习 的 特征 提取 器 。 由 于 GAN 是 最 大 似 然 方 法 的 一 个 有 了 吸 引力 和 优势 的 替代 方法 ， 所 以 这 种 基于 最 大 似 然 法 的 生成 模型 
用 GAN 应 该 是 非常 好 的 一 个 方案 。 而 且 对 于 表征 学 习 来 说 ， 无 需 局 友 式 损失 消 数 是 有 了 吸 引力 的 。 


GAN 有 一 个 通病 ， 前 面 我 们 也 提 过 ， 训 练 过 程 的 不 稳定 性 (论文 中 多 次 提 到 过 “unstable” 这 个 词 ) 会 经 常 导致 生 成 器 产 
出 无 意义 的 输出 。 目 前 所 有 的 研究 在 试图 理解 和 可 视 化 GAN 在 学 习 中 究 葛 学 到 什么 以 及 多 层 GAN 的 中 间 隐 臣 层 标准 方面 的 成 果 
是 非常 有 限 的 。 


历史 上 使 用 CNN 对 GAN 模 型 进行 一 些 扩 展 的 尝试 都 不 是 很 成 功 ， 所 以 这 促使 LAPGAN 的 作者 开 友 一 种 茶 代 万 去 : SAIC 
地 升级 低 分 辨 率 图 像 ， 也 就是 平时 我 们 说 的 尝试 用 GAN 解 决 超 分 辨 率 的 问题 。 当 然 在 试图 使 用 各 种 文献 和 参考 资料 中 提 及 的 通 
常用 于 有 监督 学 习 的 CNN 架 构 扩 展 GAN 时 遇 到 了 不 小 的 困难 。 不 过 最 终 找到 了 一 类 方法 可 以 在 多 种 数据 集 上 稳定 地 训练 ， 并 且 
产生 更 高 分 辨 率 的 图 像 ， 这 就 是 深度 卷 积 生成 网 络 (DCGAN) 。 


核心 方法 就 是 采用 并 修改 了 三 种 最 近 的 CNN 结 构 加 以 改进 。 
(1) 使 用 全 卷 积 网 络 (all convolutional net) 


在 判别 模型 中 ， 使 用 市 步 长 的 卷 积 (strided convolutions) 取代 了 的 空间 池 化 (spatial pooling) ， 容 许 网 络 学 习 自 己 的 
空间 下 采样 (Spatial Downsampling) 。 其 实 这 种 形式 等 于 允许 更 多 的 前 层 信息 传输 到 后 层 上 去 。 


生成 模型 ， 使 用 微 步 幅 卷 积 (fractional strided) ， 容 许 它 学 习 自 己 的 空间 上 采样 (spatial upsampling) 。 
(2) 在 卷 积 特征 之 上 消除 全 连接 层 
全 局 的 平均 池 化 有 助 于 模型 的 稳定 性 ， 但 损害 收敛 速度 。 
输入 : 服从 均匀 分 布 的 噪声 向 量 ，100 维 ; 
输出 : 一 个 64x64x3 的 RGB 图 像 。 
激励 函数 : 
生成 模型 : 输出 层 用 Tanh 函 数 ， 其 他 层 用 ReLU 激 励 函 数 。 
判别 模型 : 所 有 层 使 用 Leaky ReLUERZX. 
(3) 批 归 一 化 (batch normalization) 


解决 因 糟 糕 的 初始 化 引起 的 训练 问题 ， 使 得 梯度 能 传播 更 深层 次 。 批 归 一 化 证 明了 生成 模型 初始 化 的 重要 性 ， 避 免 生 成 模型 
Bai: 生成 的 所 有 样本 都 在 一 个 点 上 (样本 相同 ) ， 这 是 训练 GAN 经 弟 遇 到 的 失败 现象 。 


100 维 的 噪声 被 投影 到 一 个 小 空间 幅度 的 卷 积 表征 中 。 有 四 个 微 步 幅 卷 积 ， 然 后 将 这 些 高 层 表 征 转换 到 64x 64 像 素 的 RGB 三 
通道 图 片 。 没 有 全 连接 层 ， 没 有 池 化 层 。 原 文 对 DCGAN 的 网 络 结构 介绍 的 不 是 很 清楚 ， (Semantic Image Inpainting with 


Perceptual and Contextual Losses》 这 篇 文章 使 用 了 DCGAN 进 行 图 像 修 复 ， 对 网 络 结构 和 参数 介绍 得 比较 清楚 。 如 下 图 所 
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在 CelebA 数 据 集 上 有 202599 张 人 脸 图 片 ， 为 了 测试 ， 从 里 面 拿 挥 2000 张 。 把 测试 集 和 训练 集 图 片 中 间 一 个 64x64 大 小 的 区 
域 去 挥 。 


在 实验 中 有 两 种 破坏 ， 一 种 是 随机 去 挥 80% 的 像素 ,或 者 是 中 间 丢 失 一 个 大 的 像素 区 域 。 两 种 任务 都 非 党 具有 挑战 性 ， 前 者 
有 80% 的 像素 信息 需要 从 非常 少 的 信息 中 恢复 回来 ， 而 后 者 ， 需 要 恢复 一 个 内 容 温 和 的 信息 一 一 有 眼睛、 蜡 子 、 嘴 巴 、 眉 毛 等 。 
当然 最 后 忌 体 来 说 这 种 方式 是 成 功 的 ， 这 些 破损 的 图 片 被 高 质量 地 恢复 了 。 


在 Github 上 也 有 DCGAN 的 一 些 代码 ， 这 里 选取 了 其 中 的 一 个 : https://github.com/carpedm20/DCGAN-tensorflow， 
大 家 可 以 下 载 来 玩 玩 。 项 目 封面 上 也 有 一 些 奇 形 怪 状 的 小 鬼脸 ， 一 看 便 知 束 是 DCGAN 的 杰作 。 


[1] 具体 可 以 参阅 此 论文 《Deep Generative Image Models using a Laplacian Pyramid of Adversarial 


Networks» , https://arxiv.org/pdf/1506.05751.pdf. 


12.5 ”小结 


在 本 章 我 们 简单 接触 了 生成 对 抗 网 络 的 原理 与 应 用 。 


深度 生成 对 抗 网 络 在 整个 深度 学 习 界 都 算是 比较 新 的 概念 ， 相 关 的 研究 成 果 也 还 是 比较 少 ， 远 没有 传统 的 深度 学 习 的 网 络 成 
果 来 的 多 。 到 目前 为 止 ， 深 度 生 成 对 抗 网 络 的 相关 资料 中 绝 大 部 分 来 源 于 英文 论文 ， 大 家 如 果 想 找 相 天 资料 请 
到 https://arxiv.org/ 去 查询 。 现 在 网 上 能 够 查 到 的 中 文 资 料 基本 也 都 是 这 毕 英 文 论文 的 翻译 版 或 者 片段 截取 的 内 容 转 述 。 


深度 生成 对 抗 网 络 给 我 们 市 来 的 最 大 的 局 友 ， 我 感 部 还 是 这 种 研究 方式 本 身 、 这 种 思路 。 在 两 个 矛盾 模型 的 对 抗 中 使 得 两 者 
都 有 很 好 的 表现 ， 从 而 达到 一 个 全 局 的 最 优 状 态 。 这 让 我 们 有 了 很 多 的 想象 ,以 后 或 许可 以 考虑 用 它 来 做 一 些 其 他 应 用 中 的 对 搞 


REL, PROT AE ARIA. S URS AGUSRSUS VS EBERT DARE las AFB Ae las 
人 等 ， 这 些 或 许 都 是 可 以 期 待 的 领域 。 


还 是 那 句 话 ， 深 度 生成 对 抗 网 络 是 个 比较 新 的 研究 泡 畴 ， 未 来 能 够 应 用 于 什么 场合 还 很 难说 。 虽 然 现 在 已 经 有 了 一 些 “ 成 
果 ”， 但 这 些 成 果 离 真正 的 商用 还 是 有 一 段 差距 的 。 残 刚刚 的 这 个 DCGAN 的 例子 来 训 ， 虽 然 在 实验 中 ， 那 些 图 片 裤 “高 质 
量 ” 地 还 原 了 ， 可 是 企 人 眼看 来 这 综 图 片 仍然 怪 怪 的 ， 还 不 能 商用 。 所 以 况 在 这 个 领域 的 研究 还 差 得 很 远 ， 大 家 感 兴趣 瓯 多 多 努 
力 研究 吧 。 


在 深度 学 习 技 术 不 成 熟 的 年 代 很 多 人 研究 机 构 都 是 用 什么 SVM (支持 向量 机 ) F, 什么 KNN (K Nearest Neighbors) 算 
法 ， 等 等 。 现 在 是 乌 枪 换 炮 了 ， 现 在 计算 机 的 计算 能 力 和 十 几 年 前 绝对 不 可 同日 而 语 ， 所 以 大 规模 伸 经 网 络 的 应 用 残 可 以 企 人 脸 
识别 领域 得 到 实现 。 不 仅仅 是 网 上 仍 逃 ， 包 括 安防 监控 领域 的 监测 应 用 ， 网 上 银行 的 无 人 值守 窗口 活体 检测 ， 甚 至 包括 娱乐 性 的 
应 用 ， 都 有 痢 非 营 好 的 落地 实例 。 这 尝 大 量 代 蔡 人 类 竹 琐 秀 动 的 工程 企 现 实业 务 中 获取 了 极 大 的 剩余 价值 ， 也 吸引 着 一 批 又 一 批 
的 工程 技术 人 员 不 断 研究 。 
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脸 胖 瘦 变 化 


评分 证 情 
脸型 、 眼 睛 、 鼻 子 等 五 官 分 项 颜 值得 分 


有 关 人 脸 识别 的 研究 其 实 也 是 由 来 已 久 ， 在 我 上 大 学 的 时 候 束 听 说 过 有 一 些 研究 机 构 在 尝试 做 人 脸 检 测 相 关 的 研究 。 主 要 是 
做 个 体 识 别 ， 并 想 办 法 将 它 应 用 到 网 上 奶 逃 ( 抓 捕 逃 犯 ) 或 相关 领域 去 。 


襄 起 来 ， 人 脸 识 别 这 个 词汇 其 实 有 多 重 的 含义， 而 各 个 含义 确实 侧重 不 同 ， 在 洛 地 时 看 到 的 场景 也 不 一 样 。 有 的 软件 可 以 找 
出 图 中 所 有 的 人 脸 ， 有 的 则 可 以 识别 出 多 幅 图 中 相同 的 人 。 还 有 的 可 能 是 输入 一 个 人 的 照 上 请 ， 让 机 器 在 数据 库 里 查找 他 究竟 是 
谁 ， 这 些 都 算 人 脸 识 别 这 个 大 范畴 下 的 不 同 侧面 。 


对 该 图 片 的 最 佳 猜测 : 威 尔 ` 史 密斯 识 图 效果 不 好 ? 尝试 输入 关键 词 描述 图 片 吧 ^_^ 
图 片 尺 寸 : 220X220 


约 3 张 
ASR 


百度 百科 


威 尔 ` 史 密斯 

生日 : 1968 征 9 月 25 日 国籍 : 美国 

简介 : 威 尔 ' 吕 密斯 ( Wilsmith ) ， 美 国 演员 、 和 歌手 ，1968 年 9 月 25 
日 出 生 于 美国 宾 今 法 尼 亚 州 费 城 。 他 12 守 时 以 说 唱 ... 音 看 详情 > 


baike.baidu.com 


不 论 是 哪 一 种 应 用 ， 几 乎 都 分 不 开 这 样 几 个 步骤 的 工作 。 
第 一 ， 人 脸 检 测 (face detection) 


这 个 部 分 工作 束 是 在 输入 的 图 片 中 查找 有 没有 人 脸 并 找到 人 脸 所 在 的 位 置 。 当 然 ， 用 万 框 标 出 ， 以 及 数 一 下 有 几 个 人 脸 ， 这 
些 间 题目 然 不 在 话 下 。 


第 二 ， 人 脸 跟 踪 (face tracking) 


这 个 做 的 融 是 要 “跟踪 ”人 有 了， 不 过 这 个 跟踪 可 不 仅仅 是 人 脸 在 图 片 中 友 生 移动 能 识别 这 么 简单 ， 它 通 单 是 针对 一 个 视频 
流 ， 在 这 个 视频 流 中 实时 捕捉 到 这 个 人 脸 上 主要 特征 点 的 位 置 。 这 样 束 能 得 到 一 个 内 容 比较 丰富 的 、 立 体 的 人 脸 信 息 。 也 能 够 从 
中 识别 出 表情 上 的 细腻 变化 。 


第 三 ， 人 脸 识 别 (face identification, face recognition) 


简单 况 融 是 认 出 谁 是 谁 ， 大 概 用 得 比较 多 的 场景 融 是 身份 认证 了 。 


无 论 这 个 是 什么 表情 ， 戴 不 戴 眼镜 ， 或 者 是 脸 有 点 侧 ， 光 线 昏 瞳 与 舍 ， 甚 至 是 年 龄 有 了 变化 也 能 够 认 出 来 。 这 个 的 难度 应 该 
是 这 三 种 小 任务 里 面 最 难 的 一 种 了 。 


这 几 种 任务 远 在 深度 学 习 走红 之 前 束 一 直 有 人 在 研究 ， 当 然 是 用 传统 的 机 器 学 习 、 基 于 图 像 数 字 和 矩阵 的 特征 提取 等 各 种 方 
法 。 


今天 我 们 说 说 天 于 使 用 深度 学 习 做 人 脸 识别 的 一 些 基 本 思路 吧 。 首 先 ， 我 们 参考 谷歌 的 那 篇 著名 论文 《FaceNet: A 
Unified Embedding for Face Recognition and Clustering》。 在 这 篇 论文 中 提 到 ， 使 用 论文 中 所 使 用 的 网 络 结构 进行 人 脸 识 
别 的 话 可 以 在 LFW (Labeled Faces in the Wild) 数据 集 上 有 高 达 99.63% 的 准确 率 ， 这 个 准确 率 确实 相当 高 。 在 YouTube 网 站 
的 人 脸 数 据 库 中 ， 这 个 指标 也 能 高 达 95.12%， 应 该 说 表现 还 是 非常 不 错 的 。 


在 这 篇 论文 中 ， 他 们 定义 了 一 个 三 位 一 体 的 人 上 脸 识别 系统 ， 可 以 识别 是 否 为 同一 个 人 ， 认 出 这 个 人 是 谁 ， 并 且 在 多 个 人 脸 图 


片 中 找到 这 个 人 。 方 法 就 是 使 用 深度 卷 积 网 络 来 学 习 每 张 图 片 中 的 Euclidean embedding 一 一 我 们 可 以 理解 成 为 一 种 脸 部 的 
几何 特征 ， 然 后 使 得 相同 人 的 脸 部 几何 特征 之 间 的 欧 氏 距离 最 小 ， 而 不 同人 的 脸 部 几何 特征 之 间 的 距离 最 大 。 这 个 就 是 最 终 的 原 
则 了 。 只 要 这 种 提取 的 方式 确定 ， 那 么 就 可 以 生成 这 种 表示 脸 部 几何 特征 的 几何 向 量 ， 然 后 就 转化 成 了 k-NNIC 问 题 。 
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整个 网 络 的 结构 有 这 样 几 个 部 分 : 一 个 是 Batch Input ( 批 输入 层 ) ; 另 一 个 是 市 有 一 个 L2 正 则 化 项 的 深度 CNN 网 络 ， 这 一 
层 的 输出 就 已 经 是 面部 特征 化 向 量 了 ; 最 后 是 一 个 Triplet Loss 函 数 ， 充 当 损 失 函 数 。 别 看 这 个 网 络 这 么 多 层 ， 但 是 前 面 这 些 都 
不 用 和 解释， 因为 我 们 都 多 过 了 ， 没 什么 新 鲜 的 。 批 输入 层 一 一 跟 普通 的 Batch 没 什么 区 别 ; 深度 CNN 网 络 也 跟 以 前 见 过 的 CNN 
没什么 太 大 区 别 ， 里 面 的 卷 积 核 的 w 是 我 们 训练 要 得 到 的 东西 ; L2 正 则 化 项 也 是 我 们 接触 过 的 ， 主 要 是 防止 过 拟 合 ; 没 见 过 的 就 
是 Triplet Losstz ERN. 


| Negative f N Negative 
vee’ © 
V Anchor 


Positive Positive 


Triplet 的 含义 是 “三 个 一 组 ”的 意思 ， 这 里 指 的 就 是 这 样 一 个 关系 : Anchor (oÆ) . Negative (RIB) 、 
Positive ( 正 向 量 ) 。 根 据 损失 函数 一 般 定 义 的 习惯 我 们 都 能 猜 出 来 ， 就 是 定义 锚 向 量 距 离 正 向 量 的 距离 越 远 则 损失 越 大 ， 距 离 
负 向 量 的 距离 越 近 则 损失 越 大 。 然 后 通过 Loss 对 各 个 w 求 俩 导数 来 决定 挪 多 少 并 一 次 一 次 地 挪 ， 从 而 找到 满足 损失 尽 可 能 小 的 
w.…… 此 处 可 以 省 略 2000 字 了 。 


我 们 残 假定 整个 图 片 x 到 embedding 向 量 的 映射 天 系 为 x 一 f(x) ， 那 么 损失 函数 融 可 以 写作 : 


N | 

Loss = M ||| S- £07 15 =I FG) 7 FG IE +a | 
i 

其 中 Xi 就 是 指 一 张 锚 样 本 图 片 ， 某 个 确定 的 人 ， 比 如 威 尔 史密斯 } "U^ 是 正 向 量 的 图 片 ， 就 是 其 他 的 某 张 威 尔 史密斯 的 图 


片 ， 忆 就 是 非 威 尔 史密斯 的 图 片 。 公 式 里 这 种 写法 表示 模 的 平方 ， 其 实 就 是 用 类 似 “ 多 维 勾 股 定理 ”的 方式 来 求 空间 距离 。 这 
个 a 是 一 个 强化 值 ， 用 来 强化 正 负 样本 向 量 之 间 的 差距 ， 
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1x1x64,1 
3x3x64, 1 


3x23x192.1| 664K 


3x3 x384, 2 
1x1x384, 1 


3xX3x384,1| 885K 


1x1x256.1 
3x3x256.1 
1x1x256.1 
3x3x 256, 1 
3x3x 256, 2 


maxout p=2 
maxout p=2 


网 络 结 构 也 列 出 来 了 ， 里 面 的 权 值 就 是 我 们 训练 最 后 要 的 结果 。 


这 个 项 目的 源 代码 位 置 我 们 也 给 出 来 ，https://github.com/davidsandberg/facenet， 是 用 TensorFlow 写 的 ， 大 家 可 以 下 
载 来 自己 玩 。LFW 数 据 集 的 位 置 在 http://vis-www.cs.umass.edu/lfw/。 


不 过 如 果 你 想 要 识别 一 些 LFW 数 据 集 以 外 的 人 物 ， 比 如 国内 的 影星 .…… 那 融 不 好 使 了 ， 虽 然 我 知道 衣 定 有 不 少 朋 友 想 这 样 
做 。 因 为 数据 集 里 没有 ， 如 果 你 要 做 的 话 只 能 自己 收集 图 片 数 据 ， 目 己 来 做 数据 的 前 期 整理 。 这 成 本 摘 不 好 比 买 8 通道 的 GPU 服 
务 器 还 要 贵 得 多 。 不 过 笔者 也 曾 见 过 一 些 朋 友 用 了 一 些 非 公开 的 人 脸 数 据 库 来 做 训练 ， 效 果 也 不 错 。 如 果 你 免得 玩 得 不 过 交 ， 还 
可 以 选择 其 他 一 些 人 脸 数 据 库 ， 例 如 CelebA， 官 网 位 置 在 http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html; 或 者 
CASIA， 官 网 位 置 在 http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html。 总 体 来 说 目前 亚洲 人 脸 的 数据 库 资 
源 还 是 比较 缺乏 的 ， 但 愿 成 熟 的 世界 各 种 族 的 人 脸 数据 库 能 够 早日 建 起 来 吧 。 


忌 之 ， 从 这 些 论文 和 开源 项 目 上 我 们 多 汲取 一 些 思路 上 的 营养 ,深度 学 习 到 目前 为 止 的 检测 类 的 任务 ， 公 司 之 间 的 商用 场景 
帮 距 还 都 是 拼 样本 质量 。 这 一 点 大 家 一 定 注意 ， 算 法 和 模型 只 是 工作 中 的 一 部 分 内 容 ， 还 有 相当 部 分 的 内 容 页 献 是 由 样本 提供 
的 。 


[1] 没有 找到 很 确切 的 中 文 翻译 ， 权 且 翻 译 成 为 “欧式 几何 嵌入 ” 吧 。 


[2] 邻近 算法 ， 或 者 说 多 最 近邻 kNN k-NearestNeighbot) 分 类 算法 是 数据 挖掘 分 类 技术 中 最 简单 的 方法 之 一 。 
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(EEX "Hg" AIAZ MARE (Uu) ERR. KE (Uae) DCRR EAS 
R, 虽然 当时 有 不 少 看 过 这 部 电影 的 朋友 跟 我 说 看 完 后 整个 人 都 不 好 了 ， 感 觉 世 界 有 一 天 会 被 机 器 人 玩 坏 ， 但 我 一 直 很 乐观 ,我 
觉得 这 一 天 .……. 估 计 我 的 有 生 之 年 看 不 到 。 好 了 ， 开 个 小 玩笑 我 们 来 看 作 诗 姬 究竟 是 个 什么 玩意 儿 。 


a iE j | : | r pile | 
A MESMERIEI LBINDER 
YOU'VE NEVER SEEN ANYTHING LIKE IT. OH BABY, YOU HAVE NO IDEA 

Rojling Sume: Pere Teaver: 


作 诗 机 器 人 作为 一 个 玩具 也 好 ， 作 为 一 个 科学 研究 的 领域 课题 也 叶 ， 很 早 残 有 人 开始 研究 了 。 残 单 从 数学 模型 角度 来 况 ， 作 
诗 姬 应 该 属于 隐 马 尔 可 夫 模 型 的 变种 。 


所 谓 隐 马尔 可 夫 模 型 HM M 在 前 面 我 们 用 简短 的 篇 幅 介绍 过 ， 融 是 从 时 间 序 列 的 随机 事件 中 去 统计 前 后 状态 的 转化 概率 。 这 
种 模型 在 NLP 领 域 应 用 是 非常 广泛 的 ， 在 作 诗 怒 这 种 玩具 中 也 少不了 它 抛 头 露 面 。 


遇 到 这 种 命题 ， 首 先 应 该 想到 的 是 使 用 RNN 模 型 (LSTM) 来 进行 训练 。 因 为 RNN 具 有 一 种 天 生 残 最 适合 拟 合 隐 马 尔 可 夫 
模型 的 构造 ， 所 以 这 个 大 的 思路 应 该 是 没有 什么 问题 的 。 可 是 ， 中 文 有 中 文 的 特点 ， 而 且 中 文 当中 有 一 些 令 我 们 中 国人 最 目 聚 、 
最 优美 的 韵律 感 ， 同 时 也 是 我 们 目 己 在 苦 试 写 诗 的 过 程 中 最 不 好 把 握 的 乐 西 一 平 八 和 韵脚 。 隐 马尔 可 夫 模 型 可 以 统计 出 来 在 
一 个 字 后 面 出 现 另 一 个 字 是 多 大 概率 ， 而 且 可 以 有 一 定 自由 度 地 选择 其 中 的 一 个 字 作为 下 一 个 接续 字 一 一 可 以 选择 概率 最 大 的 


那个 字 ， 这 种 情况 下 一 旦 第 一 个 字 确 定 后 ， 后 面 整个 诗 文 理论 上 就 是 全 部 确定 的 ; 也 可 以 按照 概率 从 大 到 小 排列 ， 用 概率 的 比例 
去 生成 一 个 “不 均匀 的 蜗 子 ”， 使 得 下 一 个 字 的 产生 有 一 定 变化 。 


相思 
Missing You 
ZL x2 ^E pj FH], (*ZPPZ) 
Red berries born in the warm southland. 


春来 发 几 枝 ? (PPZZ P) 


How many branches flush in the spring? 
RR mcd, (*PPZZ) 
Take home an armful, for my sake, 
此 物 最 相思 。(*ZZPP) 


As a symbol of our love. 


Re SRO ARRAS MFA, IUPRBASEBOXBUTCHHERBUEBSISZS Sia RAM, AAATSFARAREA TUER 
话 ， 大 多 是 因为 它们 是 一 个 词 ， 或 者 在 单字 词 盛行 的 古诗 文中 至少 是 词组 或 者 常用 短语 。 例 如 “红颜 ”、“ 春 光 ”、“ 山 河 ”、 
“ 相 送 ”等 。 而 概率 小 的 邻接 字 合 义 很 可 能 表示 的 是 这 两 个 字 从 来 没有 前 后 脚 出 现 过 ， 或 者 偶尔 出 现 过 那么 一 两 次 ， 还 是 一 个 属 
于 前 面 的 词尾 ， 一 个 属于 后 面 的 词 头 的 情况 ， 那 如 果 米 用 的 话 目 然 是 狗屁 不 通 。 


ShiXueHanYing Candidate lines 

First line ff (spring) "TTTI 

generation FÉ ES (lute) S orm 
If (drunk) ^ 


Next line 
generation 


光 是 用 隐 马 尔 可 夫 模 型 去 统计 还 是 不 够 的 ， 要 生成 一 个 有 一 定 “ 含 义 ”的 诗 文 是 需要 有 一 定 的 意境 和 惯用 词汇 的 。 为 此 ， 有 


这 样 一 本 书 作为 辞典 备用 ， 叫 做 《 诗 学 含 英 》[ 外 ， 京 东 上 找 不 到 这 本 书 ， 这 么 偏 门 小 众 的 书 还 是 求助 万 能 的 淘宝 吧 。 由 于 在 五 绝 


和 七 绝 这 样 的 诗 律 中 是 讲究 押 


呼应 。 


它们 的 生成 要 在 规则 上 与 第 一 名 


上 是 根据 第 一 句 来 生成 的 ， 


不 


PASER 


多 和 平 作 工整 的 ， 所 以 第 


B 


那么 残 要 移 重 点 生成 第 一 句 ， 再 一 句 一 名 按照 规 则 去 生成 其 余 的 句子 。 
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这 样 会 找 
是 满足 下 面 


惠 诗 的 梗概 、 要 义 、 主 题 ， 再 到 《 诗 学 合 英 》 中 去 寻找 相关 语汇 。 


先 给 定 一 些 Keywords， 也 丈 是 天 键 词 ， 作 为 这 


8j 


能 的 排列 ， 并 且 挑 选 一 个 最 为 合适 的 充当 第 一 句 。 


可 


司 汇 生 成 所 有 


1 
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， 根 据 这 


备 选 词 (candidate lines) 


些 
的 这 个 等 式 最 大 化 。 


到 一 


统计 的 隐 


在 我 们 


ln 


挑 出 来 的 备 选 


是 这 些 


a 


5 


大 化 的 意思 


最 
是 怎么 排列 最 顺 效 ， 也 束 是 一 句 话 组 成 的 最 大 似 然 度 的 日 话 解 释 。 


| 概率 的 连 乘 形式 ,; 


AY 


I, 


看 上 去 又 挺 吓人 上 
马尔 可 夫 模 型 里 究竟 


l-of-N encoding of RGM 
w;=(0, seg sees 0) 


Pwl Wij 5,.;) 
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下 面 要 出 场 的 是 这 人 么 个 听 着 很 高 科技 其 实 内 容 很 普通 的 东西 ， 一 个 叫 CSM (convolu-tional sentence model, BRAS iz 
HJ) ， 一 个 叫 RCM (recurrent context model, IARR) ， 还 有 一 个 叫 RGM (recurrent generation model, mÆ 


成 模型 ) 。 


95 CASM (s, ) 
uj = RCM (v,,, J) 
P(w, | Wi. ， S,.) = RGM (War. u,” ) 


I 


CSM 把 一 个 句子 输入 S 变 成 一 个 向量 vi;，RCM 将 输入 的 | 个 句子 向 量 v1 到 vi， 并 为 RGM 模 型 输出 一 些 内 容 作为 RGM 的 输入 。 


而 RGM 用 来 评估 整个 “0 S) 表达 式 的 概率 大 小 。 


Far off I watch the waterfall plunge to the long river. 


先 说 CSM ， 当 一 个 句子 生成 后 ， 就 需要 使 用 一 个 一 个 的 矩阵 经 过 多 层 的 “乘积 ”方式 来 进行 合并 ， 最 后 输出 为 一 个 代表 其 
特征 的 向 量 vi。 如 图 所 示 ， 如 果 是 七 言 绝句 ， 那 么 就 需要 C 、C 、C 、C ”来 做 向 量 的 “合并 ”操作 。 如 果 是 五 言 绝句 的 情况 
下 ， 那 就 只 需要 C”、C ”、5C ”三 个 矩阵 就 够 了 。 


RCM 处 理 逻 辑 也 很 简单 : 


u, -o(U,-h) 1xjzm-l 


9B— P IANBShotSS HT 7308LOK T , R RAYS 1 BEXERH— 1 MARBRE ABIL BU— AT -ERSTA Gel hi- 1165 T 4B IEEPS 
积 ， 然 后 通过 Sigmoid 函 数 处 理 。U 有 是 个 用 来 对 hi 做 decode 的 矩阵。 这 个 部 分 用 来 做 上 下 文 相 关 的 特征 提取 。 


RGM it ase eg Oli» ”这 个 概率 的 ， 用 的 是 很 中 规 中 矩 的 SOFTMAX。 


exp(Y ash) 


IV | 


2 EXPO jak) 


HTASARaBEM (FFE) PHAN, MAUS APRA, IDCEECEBRBSPIESSUESEXJLUGOSI. 1x 
里 还 是 有 一 些 不 好 克服 的 问题 ， 比 如 平 作 和 韵律 。 平 八 束 不 用 说 了 ， 把 平 八 规则 做 进去 的 话 ， 残 需要 建立 相应 的 限制 条 件 ， 在 生 
成 的 语句 中 进行 过 滤 ， 只 留 下 那些 符合 的 ， 当 然后 果 束 是 可 能 那些 尚且 通顺 的 句子 被 滤 挥 了 ， 却 留 下 了 一 些 不 大 通顺 的 例子 ; 而 
韵律 万 面 也 是 做 了 一 个 Trick 一 一 束 是 只 让 二 、 四 两 句 押韵 ， 在 生成 的 过 程 中 会 生成 不 止 一 个 第 二 句 ， 不 止 一 个 第 四 句 ， 让 它们 
充当 候选 集 ， 然 后 过 滤 挥 那些 不 押韵 的 ， 而 只 输出 押韵 的 。 


P(w, = k | w; ul ) =- 


J 2 


HESA, WKH A , 
Egrets stood, peeping fishes. Budding branches are full of romance. 
青山 照 水 开 。 未 见 梅 花 让 可 人 。 


Water was still, reflecting mountains. | Plum blossoms are invisible but adorable. 


夜来 风 不 动 ， 不 为 东风 无 此 客 ， 
The wind went down by nightgfall. With the east wind comes Spring. 
明月 见 楼 台 。 世间 何 处 是 前 里 。 


as the moon came up by the tower. Where on earth do I come from? 


这 篇 论文 的 位 置 在 : http://aclweb.org/anthology/D/D14/D14-1074.pdf， 也 有 对 应 的 代码 ， 位 置 
f£: https://github.com/XingxingZhang/rnnpg。 比 较 遗 憾 的 是 这 套 代码 不 是 TensorFlow 的 ， 代 人 码 里 有 C++， 有 Java， 有 
Python， 混 搭 得 很 齐全 ， 你 会 党 得 前 面谈 了 这 么 多 RNN 相 天 的 理论 概念 ， 然 后 突然 在 这 里 用 了 一 个 “ 假 网 络 ”。 嗯 ， 好 吧 ， 如 
果 大 家 名 得 它 做 得 还 比较 Low 的 话 (事实 上 我 也 党 得 它 做 得 确实 比较 Low) ， 那 么 束 试 着 自己 把 它 改 成 一 个 TensorFlow 版 本 的 
玩 玩 吧 。 大 家 请 注意 ， 这 个 工程 是 需要 下 载 一 个 叫做 MISC.tar.bz2 的 文件 的 ， 这 里 有 所 有 的 平 作 和 韵脚 的 相关 文字 ， 用 来 做 过 
滤 用 的 。 


网 上 现在 也 有 一 尝 其 他 的 产品 可 以 生成 类 似 的 结果 ， 比 如 稻 香 届 作 诗 机 ， 虽 然 笔者 不 确定 它 百 分 乙 百 是 使 用 RNN 抑 或 其 变 
种 来 制作 的 。 当 然 ， 作 诗 机 本 来 也 可 以 不 用 RNN 来 做 ， 就 用 基于 统计 的 隐 马 尔 可 夫 模 型 加 “ 碍 字典 ”过 滤 的 方式 一 样 能 够 生 
成 。 


自由 作 诗 结果 : 自由 作 诗 结果 : 

命题 成 功 。 命题 成 功 。 

CHE» CER 

Brie DIM. AERA. PRR. axl ER. 

RSE RIRI REEDER. IDET, DRR 

结果 : FPESMAT ALAA AMIE BIR. BTR RLR. 结果 ， 存 在 0% 的 词汇 无 法 生成 正确 的 关联 。 您 可 以 返回 再 试 几 次 。 信 


GE: 内 容 来 自 于 稻 香 居 作 诗 机 http://www.poeming.com/。) 


如 果 你 在 想 给 妹子 写 个 有 她 名 字 的 藏 头 诗 而 搜 肠 刮 肚 难 以 思考 的 时 候 ， 估 计 它 .…. 嗯 ， 也 帮 不 上 什么 忙 ， 你 需要 重新 写 一 个 
有 藏 尖 功能 的 作 诗 妈 。 反 正 算法 的 本 质 在 基本 理解 之 后 ， 上 自由 友 挥 的 空间 束 有 了 。 


我 想 可 能 你 也 上 友 现 了 ， 这 尝 诗 文昌 然 听 起 来 文 纤 纤 的 ， 而 且 用 词 比较 雅致 。 但 是 叙事 的 连贯 性 、 意 境 这 些 乐 西 跟 入 作 的 诗 还 
是 远 没 法 比 。 所 以 ， 这 些 东 西 当做 “玩具 ”应 该 还 是 比较 称职 的 ， 真 的 指望 它 帮 你 搞定 妹子 .….. 嗯 ， 后 果 目 负 吧 ，。 


[1] Ex Machina， 讲 述 了 老板 邀请 员工 到 别墅 对 智能 机 器 人 进行 “图 灵 测 试 ” 的 故事 ， 于 2015 年 1 月 21 日 在 英国 上 映 。 
是 清 代 刘 文 六 根据 《 增 广 诗韵 全 壁 》 一 书 所 附 《 诗 学 含 英 》 创 作 的 一 本 书籍 。 收 集 了 《声韵 启蒙 》、《 训 蒙 驹 句 》 和 《 笃 伍 


[2] 3k 
对 韵 》 三 本 训练 对 偶 技 巧 、 声 韵 格律 的 工具 书 。 按 韵 分 部 ， 包 罗 天 文 地 理 、 花 木 鸟 兽 、 人 物 器 物 等 的 虚实 应 对 。 从 单字 到 双 字 、 
寺 、 五 字 对 、 七 字 对 到 十 一 字 对 ， 节 奏 明 快 、 琅 琅 上 口 ， 从 中 可 得 语音 、 修 秤 的 训练 。 此 书 内 容 恬 据 振 珍 藉 ， 采 其 工 丽 典雅 
E —XaÉREOnGXMA, nb, Xx. HAS WR. X5GR. ie Ade. CE. GJR8t. AA. XJ. d6X. 44 
禽 、 走 兽 …… 莫 不 一 一 网 罗 ， 诚 为 诗词 学 者 必 备 之 工具 书 ， 对 律诗 对 仗 更 具 参 考 价 值 。 


13.3 ASA 


在 本 书 的 最 后 放 一 个 我 认为 最 有 趣 的 例子 吧 ， 那 残 是 用 CNN 来 做 图 片 风格 变幻。 
相信 不 少 读者 朋友 都 用 过 一 球 叫 做 Prisma 的 软件 ， 这 球 软 件 在 当时 也 是 掀起 了 一 股 争 相 使 用 的 热潮 |。 


A PRISMA 


A PRISMA 


这 个 App 的 用 法 很 简单 ， 可 以 用 一 张 原始 的 照片 堵 加 一 个 绘画 界 大师 的 照片 风 格 ， 使 得 原来 的 照片 兄 如 大 师 所 男 一 样 。 选 哪 
位 大 师 的 作品 ， 融 能 对 应 附加 哪 副 名 画 的 风格 。 应 该 说 在 当时 还 是 确实 引 友 了 小 小 的 龙 动 的 。 


首先 可 以 明确 地 告诉 大 家 ， 在 网 上 查阅 论文 你 可 以 友 现 ， 做 类 似 的 事情 其 实 不 止 一 种 方法 ， 也 绝 不 仪 仪 有 一 篇 论文 来 做 方法 
分 析 。 笔 者 认为 最 为 经 典 的 应 该 是 李 飞 飞 ll 老师 的 这 篇 论文 《Perceptual Losses for Real-Time Style Transfer and Super- 


Resolution》， 笔 者 的 团队 自己 在 尝试 做 Prisma 模 拟 实 现 的 时 候 也 是 参考 这 篇 论文 的 主要 内 容 ， 地 址 
在 https://arxiv.org/pdf/1603.08155.pdf， 大 家 可 以 参阅 一 下 。 本 书 我 们 介绍 另外 一 种 更 容易 理解 的 方法 。 


497 DD 1 D L^ b EtA 
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先 况 论文 根据 ， 这 篇 论文 地 址 在 https://arxiv.org/pdf/1508.06576v2.pdf， 题 目 叫做 《A Neural Algorithm of Artistic 
Style》， 也 是 一 篇 很 经 典 的 天 于 使 用 深度 学 习 的 方法 进行 图 片 风格 变换 的 算法 论述 。 


在 这 篇 论文 中 有 一 个 这 样 的 贴图 ， 给 我 们 展示 了 用 5 种 不 同 的 绘画 风格 分 别 应 用 于 一 张 普通 的 风景 照 所 产生 的 不 同 效果 。 


A 是 一 张 拍摄 下 来 的 普通 照片 ， 后 面 这 些 就 是 各 位 艺术 大 师 的 名 画作 品 及 其 风格 二 加 在 该 图 片上 的 效果 了 。B 是 约瑟夫 : 玛 罗 
德 : 威 廉 - 透 纳 的 《运输 船 遇难 》，C 图 是 林 高 的 《星夜 》! 冲 ， 还 有 DD 是 蒙 克 的 《呐喊 》，E 是 毕加索 的 《Femme nue 


assise》 上 中，F 是 瓦 西里 . 康 丁 斯 基 的 《作品 7》。 说 实话 ， 第 一 次 见 到 这 篇 论文 的 时 候 还 真是 吓 了 我 一 跳 ， 因 为 还 真是 有 点 神韵 
在 里 面 一 一 多 少 给 我 一 些 感觉 : “ 咽 ， 大 师 如 果 在 世 ， 画 出 这 幅 作 品 应 该 也 就 这 样 。” 


从 样子 上 来 看 ， 整 个 变化 的 过 程 是 保留 了 一 定 的 照片 内 容 ， 以 及 一 定 的 风格 图 的 风格 ， 并 且 把 两 者 结合 到 一 起 。 所 以 在 处 理 
的 过 程 中 其 实 融 是 要 让 生成 的 图 片 在 内 容 上 像 照 片 ， 而 风格 上 像 大 师 的 杰作 。 


这 幅 沅 程 图 给 我 们 展示 了 两 张 图 进行 “ 混 找 ”的 过 程 ， 简 单 叙 述 一 下 融 是 这 样 一 个 情况 。 让 负责 提供 内 容 (content) 的 照 
片 和 负责 提供 风格 (style) 的 两 张 图 同时 通过 一 个 卷 积 网 络 。 在 这 个 工程 里 用 的 是 VGG-19 一 一 前 面 我们 接触 过 它 的 “小 兄 
弄 ”VGG-16，VGG-19 除 了 层 数 比 它 多 ， 没 有 太 多 值得 一 提 的 差别 。 
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Convolutional Neural Network 
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在 通过 这 个 网 络 的 过 程 中 由 于 通过 卷 积 层 ， 所 以 会 一 层 一 层 产 生 更 小 尺寸 的 Feature 摘 述 信息 ， 也 就 是 我 们 平时 说 的 降 采 
样 。 从 这 个 图 上 看 ， 一 共 是 19 个 卷 积 核 ，5 个 池 化 层 。 整 个 工作 分 成 两 个 部 分 ， 一 个 是 内 容重 建 (content reconstruction) , 
一 个 是 风格 重建 (style reconstruction) 。 


内 容重 建 从 conv1 1、conv2 1, conv3 1, conv4 1, conv5 1 的 生成 结果 中 来 提取 。 


而 风格 重建 的 内 容 则 是 来 源 于 不 同 郑 积 层 所 组 成 的 子 集 ， 这 些 子 集 分 别 为 : 
: conl_1; 

: conv1l_1 和 conv2_1; 

-convl_1. conv2_1#econv3_1; 

-convl_1. conv2 1. conv3_1#econv4_1; 


: convi 1. conv2 1. conv3 1. conv4 14econv5 1, 


在 实际 工作 中 ， 内 容重 建 的 信息 最 终 只 采纳 了 conv4_1 的 生成 结果 ， 也 就 是 让 图 片 直接 被 conv4_1 卷 了 一 遍 作为 输出 结果 ; 
而 风格 重建 的 信息 则 是 由 最 终 在 经 过 了 conv1_1、conv2_1、conv3_1、conv4_1 和 conv5_1 后 的 生成 结果 来 描述 。 


请 注意 ， 这 里 的 VGG-19 不 是 随便 初始 化 的 ， 是 有 讲究 的 。 在 论文 里 提 到 ， 这 个 VGG-19 是 被 预 训练 (pre-trained) WAY, 
在 《ImageNet Large Scale Visual Recognition Challenge》 这 篇 论文 中 提 到 的 就 是 用 VGG-19 去 做 图 片 分 类 。 我 们 可 以 粗略 
地 理解 ， 在 这 种 预 训练 下 ， 整 个 VGG-19 网 络 的 卷 积 核 会 对 一 个 图 片 的 轮廓 线条 的 刺激 以 及 颜色 刺激 更 为 敏感 。 因 为 这 篇 论文 的 
任务 是 对 图 片 做 分 类 ， 那 么 也 就 意味 着 如 果 要 使 得 图 片 通过 VGG-19 后 产生 好 的 分 类 效果 ， 那 么 它 内 部 不 同 层 上 的 卷 积 核 应 该 会 
被 训练 成 能 够 提取 轮廓 和 头 色 这 些 关 键 信 息 的 ， 也 束 是 对 这 些 内 容 敏 感 。 


在 前 面 看 了 这 么 多 的 神经 网 络 后 我 们 得 到 一 个 经 验 ， 那 束 是 神经 网 络 的 训练 几乎 都 是 按照 凹 优 化 的 方式 来 进行 的 。 在 训练 的 
过 程 中 ， 我 们 通过 不 断 更 新 网 络 中 不 同位 置 的 w 值 来 让 损失 消 数 向 极 小 值 点 移动 一 一 这 束 是 人 套路。 那么 这 个 网 络 中 怎么 设计 这 个 
损失 水 数 呢 ? 先 上 一 个 结论 。 


”中 
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这 里 的 2 指 的 是 photograph， 就 是 照片 一 提供 内 容 的 图 片 ， 这 里 的 4 指 的 是 artwork， 也 就 是 提供 风格 的 图 片 ， 而 这 个 * 
就 是 最 终 的 输出 物 ， 一 个 既 拥有 7? 的 内 容 又 拥有 4 风格 的 图 片 ， 这 三 个 图 片 都 在 头 项 上 加 了 个 箭头 用 向 量 的 形式 表示 ， 因 为 图 片 
输入 到 网 络 中 都 是 以 向 量 的 方式 来 表示 的 。 


总 体 的 损失 Lal( Ps ds X ) 由 两 个 部 分 贡献 : 一 个 是 “rer Ps ) 内 容 方 面 的 差异 ， 或 者 叫 内 容 损失 ; 一 个 是 
有 Ln ax ) ”风格 方面 的 差异 ， 或 者 叫 风格 损失 。 前 面 的 系数 x 和 B 分 别 是 两 个 权重 系数 ， 也 就 表示 对 两 个 方面 差异 的 重视 
程度 。 哪 一 个 设置 得 更 大 ， 则 要 求 哪 一 个 方面 的 差距 越 小 ， 或 者 说 是 越 多 地 保留 照片 的 内 容 ， 还 是 越 多 地 保留 大 师 的 风格 。 那 么 
BRIER Leonen Po X ) 和 Loela, X ASEE AUTH, 


13.3.2 ”内 容 损失 


首先 ， 一 个 网 络 层 有 NI 个 不 同 的 卷 积 核 ， 那 么 就 对 应 有 NI 个 不 同 的 Feature Map。 每 个 Feature Map 的 尺寸 分 别 为 


MI，M | 表示 出 来 就 是 一 个 Feature Map 的 长 x 宫 了 。 这 里 的 N 惑 是 指 Number，M 束 是 措 Map， 小 写 的 | 角 标 指 的 是 Layer 的 序 
号 。 内 容 并 不 复杂 ， 只 是 以 字母 出 现 确实 容易 把 人 绕 晤 。 


每 一 层 所 产生 的 内 容 (Feature) ， 我 们 用 F 来 表示 ， 每 一 层 的 FI 尺寸 是 不 一 样 的 ， 简 单 说 就 是 跟 该 层 的 卷 积 核 的 数量 N! 与 
每 个 卷 积 核 所 产生 的 Feature Map 尺 寸 M 的 乘积 相等 。 我 们 用 已 来 表示 这 个 卷 积 核 后 面 跟随 的 激励 函数 ，| 还 指 层 序号 ， 计 示 第 


几 个 卷 积 核 ，j 束 示 在 第 几 个 位 置 。 所 以 这 样 久 就 表示 具体 在 某 层 某 个 具体 位 置 产生 的 “像素 级 别 ” 的 激励 值 了 。 


在 网 络 初始 化 之 后 ， 就 代入 ?和 *， 此 时 * 应 该 就 是 一 张 “ 白 纸 ”， 学 术 一 点 的 方法 应 该 叫 白 噪声 图 片 (white noise) 。 这 
时 候 ， 我 们 定义 另 一 个 内 容 PL，Pl 和 F 的 描述 几乎 是 一 样 的 ， 但 是 不 一 样 的 是 它们 各 自 产 生 的 来 源 不 同 ，F 是 由 产生 的 ， 而 P 是 由 
2 产生 的 . 


Activation 


然后 在 各 层 上 面 产生 的 内 容 损失 定义 为 : 


— 2 


L,ontent | P, x.l — I 


9 


(pl pl 
{E-P 
ij 


L] 


l,j 
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注意 下 面 这 个 地 方 是 这 个 模型 与 原来 “判定 型 ”模型 差别 最 大 的 地 方 。 原 来 的 “判定 型 ”模型 是 定义 整个 网 络 最 终 输 出 的 判 


OLoss 


Eins SHB ins ZANE —Ju16 £55 VRE (ABA, CARIBE Ov 来 通过 梯度 下 降 的 方式 找到 满足 差距 最 
小 的 w， 这 个 学 习 融 是 学 习 一 个 w 息 阵 。 而 在 这 个 模型 中 ，w 初 始 化 忆 后 2 和 都 会 在 这 种 固定 的 w 下 ， 在 不 同 的 层 上 产生 不 同 的 
激励 结果 ， 最 终 的 目的 是 为 了 不 断 更 新 “来 使 得 < 产生 的 激励 值 和 2 产生 的 激励 值 尽 可 能 接近 ， 也 融 是 学 习 图 片 的 内 容 。 表 示 出 
来 束 是 这 样 : 

* 4 5 
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如 果 激励 有 差距 ， 那 么 差距 就 是 两 个 激励 值 的 差 ， 如 果 没 有 差距 ， 那 就 不 用 做 更 新 了 。 这 个 函数 “(7?'*1) 被 描述 成 了 由 确 
定 的 ?和 确定 的 Fl， 以 及 待定 的 * 所 组 成 的 表达 式 ， n HE uA. 如 
果 你 不 加 干涉 ， 就 这 样 学 习 的 话 ， 应 该 会 学 出 一 个 和 输入 照片 ?内 容 很 像 的 *， 或 者 说 学 出 一 个 * 使 得 ?和 * 对 VGG-19 网 络 的 刺 
BIETET, 


这 个 过 程 只 是 看 上 去 好 像 很 繁琐 ,但 是 并 不 复杂 ， 对 不 对 ? 好 ,我 们 继续 。 
13.3.3 ”风格 损失 


襄 完了 内 容 损失 ， 再 况 一 下 风格 损失 ， 这 个 部 分 比 起 内 容 损失 略 显 复杂 ， 但 是 也 不 算 难 。 


这 里 引入 一 个 概念 叫做 格拉 姆 矩阵 向 ， 这 东西 看 上 去 非常 像 笛 卡 尔 乘积 。 如 果 有 一 个 格拉 姆 矩阵 被 定义 为 一 系列 向 量 x1 , 
.., x 的 空间 内 积 的 话 ， 可 以 记 作 9 OC), BERASE: 


(X, 5%, EEA TT Cem, 
G(X,,..5X,) = (25%) Qo) UU Dx 


(XX) (XM) s Qux) 


接 下 来 我 们 束 用 格拉 姆 行列 式 来 定义 一 下 风格 的 摘 述 : 


风格 是 一 种 非常 难以 名 状 的 东西 ， 直 到 现在 很 多 美术 老师 在 讲解 艺术 的 时 候 还 经 常 使 用 “意境 ”、“ 流 派 ”、“ 风 骨 ” 等 

些 抽象 的 连 人 类 理解 起 来 都 困难 的 词汇 去 描述 艺术 品 。 当 然 ， 这 也 是 艺术 品 最 特殊 的 地 方 ， 但 是 如 果 你 想 从 数据 科学 的 角度 去 给 

它 更 多 的 解读 空间 ， 那 必须 进行 一 种 合理 的 量化 ， 在 这 里 我 们 看 到 了 一 种 量化 过 程 ， 而 且 不 排除 会 有 其 他 的 量化 方式 也 能 很 好 地 
完成 这 项 任务 。 


xf 


其 中 的 k 是 指 一 个 层 中 的 多 个 卷 积 核 形 成 的 Feature Map， 第 一 层 是 1 个 ， 第 五 层 是 5 个 ， 这 个 在 刚才 的 VGG-19 结 构 讲 解 的 
部 分 已 经 见 过 了 。 


那么 一 个 层 中 的 风格 描述 Co spat e rro PUT EUR, 就 是 刚才 说 的 由 卷 积 核 生成 的 Feature Map, RUF 
过 是 向 量化 的 (vectorised) ， 变 成 一 个 类 似 一 维 数组 的 形状 。 那 么 G; 是 一 个 矩阵 描述 ， 就 是 Feature Map 中 的 每 两 个 点 两 两 
相 乘 所 形成 的 矩阵 。 做 完 k 次 加 和 后 就 是 这 一 层 所 有 的 卷 积 核 各 自 提取 的 特征 所 形成 的 矩阵 的 纯 线性 晋 加 结果 。 

怎么 理解 这 样 一 个 风格 特征 提取 的 过 程 呢 ? 所 谓 风格 主要 是 指 在 画面 上 表现 出 来 的 “着 色 ”、 “笔触”、 “线条 ”等 特性 。 
这 些 特 性 不 是 依靠 一 个 点 来 描述 的 ， 而 是 一 系列 的 连续 点 或 者 点 和 点 之 间 的 关系 才能 描述 得 比较 好 ， 所 以 使 用 两 两 相 乘 的 方式 实 
际 描述 了 任意 两 个 点 之 间 的 关系 。 如 果 其 中 有 任何 一 个 是 0 的 话 ， 那 么 结果 仍旧 是 0， 两 者 都 不 为 0 的 时 候 产生 一 个 乘积 来 描述 。 
可 以 粗略 理解 为 两 个 点 之 间 如 果 同 时 对 卷 积 核 产 生 刺 激 使 其 激活 ， 激 活 值 越 大 的 则 表示 这 两 点 的 信息 对 描述 物体 的 形状 或 轮廓 、 


内 容 越 有 效 。 
] 
E, — 
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l i l - 
对 于 某 一 层 | 来 说 ,， 它 的 风格 损失 函数 应 该 是 这 样 一 个 东西 。 其 中 名 是 由 4 产生 的 风格 描述 ， 0; 是 由 * 产 生 的 风格 描述 。 
| 


个 点 的 值 做 差 的 平方 ， 再 加 和 来 描述 损失 。 前 面 的 4 M. 是 为 了 归 一 化 而 配 出 的 权重 。 如 果 没 有 这 个 部 分 的 话 ， 后 面 这 个 部 分 
产生 的 差 会 非常 大 。 因 为 从 “ 量 纲 ” 的 角度 来 说 % 入 是 带 有 平方 项 的 ， 外 面 再 平方 对 于 最 原始 的 FI 来 说 就 是 4 次 方 项 了 ， 所 以 
前 面 除 去 这 个 4 次 方 的 系数 比较 合适 . 
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13.34 ”系数 比例 


SEF HE stl o) Lonn (六 疏 +BLw(" 臣 由 a 和 B 分 别 应 该 取 多 少 合适 ， 狐 似 没有 什么 好 的 科学 性 的 办 法 ， 只 能 是 根据 
名 卷 积 层 的 输出 ， 通 过 肉眼 比较 来 确定 这 两 个 信 怎么 取 ， 


UJ 


( 见 彩 插 ) 
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Qa/B 如 果 特 别 小 ， 说 明 更 为 重视 风格 方面 的 学 习 ， 生 成 出 来 的 图 会 更 多 保持 大 师 作 品 的 风格 内 容 ; Qa/B 如 果 特别 大 ,说明 更 
为 重视 内 容 方面 的 学 习 ， 生 成 出 来 的 图 会 更 多 保持 照片 原 有 的 内 容 信息 。 


从 图 上 来 看 ， 当 ay 在 10…” 的 时 候 几乎 看 不 出 任何 的 照片 本 身 所 携带 的 信息 ， 看 到 的 是 大 师 那 出 神 入 化 的 、 狂 草 式 油画 斑 
点 。 随 着 这 个 比值 增 大 ， 当 这 个 值 增 大 到 10-< 的 时 候 ， 此 时 生成 的 图 片 在 内 容 方面 保留 了 足够 多 的 信息 ， 让 我 们 基本 能 够 辨识 出 
原来 图 中 房屋 、 河 流 、 天 空 等 的 轮廓 ， 同 时 又 兼 有 大 师 着 色 的 特点 。 那 么 这 个 值 就 被 认为 是 一 个 比较 合适 的 值 一 一 全 赁 肉眼 感 


13.3.5 (USAT 


GitHub 上 的 代码 在 https://github.com/anishathalye/neural-style， 文 件 目录 在 neural-style。 核 心 是 三 个 文件 ， 即 
neural style.py、stylize.py、vgg.py。 本 书 详细 讲解 前 2 个 。 


第 一 个 文件 neural style.py 如 下 。 


1 # Copyright (c) 2015-2016 Anish Athalye. Released under GPLV3 . 


11 from argparse import ArgumentParser 


13 # default arguments 
14 CONTENT WEIGHT = 5e0 
15 STYLE WEIGHT = 1e2 


16 TV WEIGHT = 1e2 

17 LEARNING RATE = lel 

18 STYLE SCALE = 1.0 

19 ITERATIONS = 1000 

20 VGG PATH = 'imagenet-vgg-verydeep-19.mat' 


78 def main(): 
79 parser = build parser () 
80 options = parser.parse args () 


82 if not os.path.isfile (options.network) : 
83 parser.error ("Network $s does not exist. (Did you forget to download it?)" 


© 


% options .network) 


84 

85 content image = imread(options.content) 

86 style images - [imread(style) for style in options.styles] 
87 


88 width - options.width 
89 if width is not None: 


90 new shape = (int(math.floor(float(content image.shape[0]) / 

91 content image.shape[1] * width)), width) 

92 content image - scipy.misc.imresize(content image, new shape) 
93 target shape - content image.shape 


94 for i in range(len(style images) ): 

95 style scale - STYLE SCALE 

96 if options.style scales is not None: 

97 style scale = options.style scales[i] 

98 style images[i] = scipy.misc.imresize(style images[i], style scale * 
99 target shape[1] / style images [i] .shape[1]) 

100 

101 style blend weights - options.style blend weights 

102 if style blend weights is None: 

103 4 default is equal weights 

104 style blend weights = [1.0/len(style images) for _ in style images] 
105 else: 

106 total blend weight - sum(style blend weights) 

107 style blend weights - [weight/total blend weight 

108 for weight in style blend weights] 

109 

110 initial - options.initial 

111 if initial is not None: 

112 initial = scipy.misc.imresize(imread(initial), content image.shape[:2]1]) 
L13 

114 if options.checkpoint output and "$s" not in options.checkpoint output: 
115 parser.error("To save intermediate images, the checkpoint output " 
116 "parameter must contain ‘%s (e.g. ^ foo$s.jpg )") 

117 


118 for iteration, image in stylize( 

119 network-options.network, 

120 initial-initial, 

121 content=content image, 

122 styles-style images, 

123 iterations-options.iterations, 

124 content weight-options.content weight, 

125 style weight-options.style weight, 

126 style blend weights-style blend weights, 
127 tv weight-options.tv weight, 

128 learning rate-options.learning rate, 

129 print iterations-options.print iterations, 
130 checkpoint iterations-options.checkpoint iterations 
131 33 

132 output file - None 

133 if iteration is not None: 

134 if options.checkpoint output: 

135 output file = options.checkpoint output % iteration 
136 else: 

137 output file = options.output 

138 if output file: 

139 imsave(output file, image) 

140 

141 

142 def imread (path): 

143 img = scipy.misc.imread(path) .astype (np.float) 
144 if len(img.shape) -- 2: 

145 # grayscale 

146 img = np.dstack ((img,img, img) ) 

147 return img 

148 

149 

150 def imsave (path, img): 

151 img = np.clip(img, 0, 255).astype (np.uint8) 
152 scipy.misc.imsave(path, img) 

153 

154 

155 if name == ' main ': 

156 main() 


156 行 ， 程 序 开 始 执行 。 
79 ~ 80 行 ， 解 析 命 令 行 参 数 。 
86 行 ， 读 content 图 片 。 


87 行 ， 读 style 图 片 ， 可 以 有 多 个 。 


88 ~ 93 行 ， 看 是 否 需 要 缩放 content 图 片 。 
94 ~ 99 行 ， 看 是 否 需 要 缩放 style 图 片 。 

101 ~ 107 行 ， 初 始 化 style_blend weights, 
108 ~ 110 行 ， 提 不 提供 初始 化 图 片 。 

118 ~ 139 行 ， 训 练 循环 ， 保 存 训练 文件 。 
142 ~ 147 行 ， 读 图 片 。 

150~ 152 行 ， 保 存 图 片 。 

14~ 19 行 ， 定 义 网 络 训练 参数 。 

20 行 ， 预 先 训练 好 的 vgg 网 络 。 


第 二 个 文件 stylize.py 如 下 。 


设置 每 张 style 图 片 权 重 。 


1 # Copyright (c) 2015-2016 Anish Athalye. Released under GPLv3. 


10 CONTENT LAYER = 'relu4 Z2' 

11 STYLE LAYERS = ('relul 1', 'relu2 1', 'relu3 1', 'relu4 1', 'relu5 1') 
12 

13 

14 try: 


15 reduce 
16 except NameError: 
17 from functools import reduce 


20 def stylize(network, initial, content, styles, iterations, 
21 content weight, style weight, style blend weights, tv weight, 
22 learning rate, print iterations-None, checkpoint iterations-None): 


32 shape = (1,) + content.shape 

33 style shapes = [(1,) + style.shape for style in styles] 
34 content features = {} 

35 style features = [{} for _ in styles] 

36 


37 # compute content features in feedforward mode 
38 g = tf.Graph() 


39 with g.as default(), g.device('/cpu:0'), tf.Session() as sess: 
40 image = tf.placeholder('float', shape=shape) 

41 net, mean pixel = vgg.net (network, image) 

42 content pre = np.array([vgg.preprocess(content, mean pixel) ]) 
43 content features [CONTENT LAYER] = net [CONTENT LAYER] .eval ( 

44 feed dict={image: content pre}) 

45 


46 # compute style features in feedforward mode 

47 for i in range(len(styles) ): 

48 g = tf.Graph() 

49 with g.as default(), g.device('/cpu:0'), tf.Session() as sess: 
50 image = tf.placeholder('float', shape=style shapes[il) 

51 net, _ = vgg.net (network, image) 

52 style pre = np.array([vgg.preprocess(styles[i], mean pixel)l) 
53 for layer in STYLE LAYERS: 

54 features = net[layer].eval(feed dict={image: style pre}) 

55 features = np.reshape (features, (-1, features.shape[3]) ) 


56 gram = np.matmul(features.T, features) / features.size 
57 style features [i] [layer] = gram 

58 

59 # make stylized image using backpropogation 

60 with tf.Graph().as default(): 

61 if initial is None: 


62 noise = np.random.normal (size=shape, scale=np.std (content) * 0.1) 


63 initial = tf.random normal (shape) * 0.256 
64 else: 
65 initial = np.array([vgg.preprocess(initial, mean pixel) ]) 


66 initial = initial.astype('float32') 

67 image = tf.Variable (initial) 

68 net, = vgg.net(network, image) 

69 

70 # content loss 

71 content loss = content weight * (2 * tf.nn.12 loss ( 
72 net[CONTENT LAYER] - content features[CONTENT LAYER]) / 
73 content features[CONTENT LAYER].size) 

74 4 style loss 

75 style loss = 0 

76 for i in range (len(styles)): 

77 style losses = [] 

78 for style layer in STYLE LAYERS: 

79 layer = net[style layer] 


80 , height, width, number = map(lambda i: i.value, layer.get shape()) 
81 size - height * width * number 

82 feats - tf.reshape(layer, (-1, number)) 

83 gram - tf.matmul(tf.transpose(feats), feats) / size 


84 style gram = style features[il[style layer] 

85 style losses.append(2 * tf.nn.12 loss(gram - style gram) / style gram.size) 

86 style loss += style weight * style blend weights[i] * reduce(tf.add, style 
losses) 


87 # total variation denoising 


88 tv y size = tensor size(image[:,1:,:,:1) 

89 tv x size = tensor size(image[:,:,1:,:1) 

90 tv loss = tv weight * 2 * ( 

91 (tf.nn.12 loss(image[:,1:,:,:] - image[:,:shape[1]-1,:,:]) / 


92 tv y Size) + 
93 (tf.nn.12 loss(image[:,:,1:,:] - image[:,:,:shape[2]-1,:]) / 
94 tv x size)) 


95 # overall loss 


96 loss = content loss + style loss + tv loss 

97 

98 # optimizer setup 

99 train step = tf.train.AdamOptimizer (learning rate) .minimize (loss) 
100 


101 def print progress(i, last=False): 


102 stderr.write('Iteration *d/%d\n' $ (i + 1, iterations) ) 


103 if last or 
104 
105 
106 
107 
108 
109 
110 
Ll 
112 
113 
114 
LLS 
116 
LLT 
118 
119 if 
120 
Ld 
Lag 
Las 
124 
125 
Tb 
l27 | 
128 
129 
130 
131 
L32 


stderr.write(' 


stderr.write 


stderr 


( 
.write(!' 
( ! 


stderr.write 


# optimization 
best loss - 


best - None 


last step = (1 


this loss - 


best loss = 
best = 
yield ( 


10~ 1117, 
38-4417, 


47 ~ 5747, 


with tf.Session() 


print progress (i, 


(checkpoint iterations and i % 


return reduce(mul, 


(print iterations and i 和 


content loss: %g\n' 


style loss: %g\n' % 
tv loss: 


o 


total loss: %g\n' $ 


float ('inf') 


as sess: 


for i in range (iterations): 


== iterations - 1) 


last-last step) 


train step.run() 


o 


loss.eval () 
if this loss < best_loss: 
this loss 


image.eval () 


(None if last step else i), 


def tensor size (tensor): 


from operator import mul 


定义 Content 和 style 需 要 从 哪些 层 恢 复 。 
通过 前 向 传播 计算 content features, 


通过 前 向 传播 计算 style features, 


60 ~ 107 行 ， 通 过 方向 更 新 来 生成 风格 图 片 。 


61~ 67 行 ， 随 机 生成 一 张 初始 化 图 片 与 content 图 片 的 shape 一 样 。 或 者 使 用 你 指定 的 初始 化 图 片 
片 做 一 下 均值 ， 转 换 下 类 型 。 


68 行 ， 把 初始 化 图 片 过 vgg 网 络 。 


71~73 行 ， 计 算 content loss， 论 文中 的 方程 如 下 : 


sg\n' $ tv_ 


checkpoint iterations 


content loss.eval()) 


style loss.eval()) 
loss.eval()) 


loss.eval()) 


sess.run(tf.global variables initializer()) 


vgg.unprocess(best.reshape (shape[1:]), mean pixel) 


(d.value for d in tensor.get shape()), 


print iterations == 0): 


1) 


， 给 这 


) or last step: 


你 指定 的 切 始 化 图 


—a i 


| aul (p, ad, x) 一 AL, [p.x X | T P Leontent (a, x) 


l 
; 24; - Ply 


Loonen Po Qs) 


这 里 net[CONTENT LAYER] StF. 

content _features[CONTENT LAYER] 瓯 是 P。 

除 以 content features[CONTENT LAYER].size 相 当 于 做 了 归 一 化 ， 因 为 每 层 的 feature map 大 小 会 不 相同 。 
tf.nn.l2_los 束 是 平方 后 加 和 和。 

content weight 就 是 totol loss 里 的 阿尔 法 。 


75 ~ 86 行 ， 计 算 style loss， 和 上 面 计算 style loss， 对 照 论文 里 的 方程 ， 一 步 一 步 求 角 


| N^ pi pl 
G, = YE, 
k 


Fd 


aes 
| 
D 
zc 
S 
M 
- 
A 


Lyle a, x |= » wE, 


88 ~ 94 行 这 里 的 tv _ loss 在 论文 中 没有 提 到 ， 融 是 Total Variation， 在 图 片 去 噪 中 有 应 用 。 把 图 片 相 邻 像素 相 减 ， 如 果 值 很 
大 表明 噪声 大 ， 模 型 学 习 得 不 够 好 。 


96 行 ， 最 后 的 总 loss 是 content loss+style loss+tv loss， 比 论文 中 多 了 一 个 tv loss, 


| ul (p. ad, x) — aL... [p.x ) T BL onto (a, x) 


99 行 ， 计 算 梯度 。 


101 ~ 107 行 ， 打 印 训练 信息 。 


112 ~ 128 行 ， 开 始 训 | 练 。 
151173 V: 
Pre-trained VGG network 可 以 自行 下 载 ， 大 约 500 多 MB， 放 在 neural stylef& E AR. 


wget http://www.vlfeat.org/matconvnet/models/betal6/imagenet-vgg-verydeep-19.mat 


在 python2.7/python3.6 下 都 可 以 执行 ， 其 中 --content 后 面 的 图 片 束 是 你 准备 要 改变 风格 的 图 片 ，--styles 后 面 的 图 片 是 你 
准备 的 大 师 风 格 图 。 


python neural style.py --content examples/1-content.jpg --styles examples/1- 
style.jpg --output output.jpg 


不 过 ， 友 情 提示 ， 当 大 师 “ 附 体 ”之 后 风格 不 见得 和 你 想象 得 一 样 ， 请 慎重 。 笔 者 融 曾 经 试 着 用 过 一 些 别 的 大 师 风 格 ， 结 果 
效果 异常 惊悚 一 一 比如 一 位 岂 草 间 弥 生 的 日 本 艺术 家 的 作品 ， 噶 ， 束 这 个 厅 点 满 身 的 草 幅 。 


| 
| 
NAT 


B s. 
=>, 


当时 用 这 个 去 处 理 同事 的 照片 ， 险 些 绝 交 。 为 了 保证 本 书 顺 利 出 版 ,我 还 是 决定 不 友 处 理 完 的 结果 ， 大 家 有 兴趣 自己 玩 吧 。 
忌 之 ， 人 在 深度 学 习 的 很 多 分 支 领域 ， 很 多 小 项 目 虽 然 不 具备 非常 明确 的 变现 途径 ， 但 是 却 仍旧 让 我 们 客 得 它 很 好 玩 。 嗯 ， 玩 吧 ， 
在 玩 的 过 程 中 体验 深度 学 习 不 束 是 一 件 非 常 有 趣 的 事情 吗 ? 


U 李 飞 飞 ， 女 ， 美 国 斯 坦 福 大 学 计算 机 科学 系 副教授 ， 深 度 学 习 与 人 工 智 能 界 的 著名 专家 。 

[2] The Starry Night， 也 译作 《星空 》。 

[3] 翻译 成 《 坐 着 的 裸女 》。 

[4] Gram Matrix， 线 性 代数 中 的 概念 。 

[5] 草 间 弥 生 (Yayoi Kusama) ,日 本 艺术 家 。 草 间 弥 生 的 创作 被 评论 家 归 类 到 相当 多 的 艺术 派别 ， 包 含 了 女权 主义 、 极 简 主 义 、 
超 现 实 主义 、 原 生 艺 术 、 首 首 艺 术 和 抽象 表现 主义 等 。 


134. 小结 
到 此 ， 本 书 的 主体 部 分 就 结束 了 。 然 而 对 于 深度 学 习 的 研究 过 程 其 实 才 刚刚 开 了 一 个 小 头 ， 还 有 很 多 的 内 容 、 很 多 的 方法 我 
们 还 没有 来 得 及 去 尝试 。 


当前 的 深度 学 习 的 研究 领域 有 很 多 ， 有 的 是 应 用 层 的 一 一 目的 是 为 了 改进 模型 在 应 用 中 表现 的 细微 差距 ; 有 的 是 工程 层 的 
一 一 研究 以 现 有 的 硬件 条 件 和 理论 基础 如 何 能 够 以 更 快捷 、 更 安全 、 更 低能 耗 的 方式 完成 大 规模 并 行 计算 或 其 他 问题 的 ， 有 的 
是 理论 层 的 一 一 这 一 层 是 尝试 研究 一 些 更 深层 面 的 学 习 能 力 或 者 实现 方法 ， 例 如 是 否 能 够 通过 直接 求解 解析 解 的 万 式 来 蔡 代 梯 
度 下 降 法 做 实现 等 ， 当 然 这 个 层面 的 理论 突破 是 最 难 的 。 不 过 这 个 层面 的 理论 一 旦 有 一 点 突破 的 话 ， 可 能 真 的 束 会 迎 来 人 工 智 能 
的 奇 点 ， 因 为 相当 于 计算 能 力 直接 提升 五 信 个 数量 级 或 更 多 。 


总 而 言 之 ， 路 还 非 音 遥 远 。 大 家 在 这 条 路 上 可 能 会 相依 为 伴 到 退休 ， 所 以 不 要 担心 失业 的 问题 ， 你 需要 担心 的 只 是 在 越 来 走 
多 的 人 投身 深度 学 习 和 和 人工 智 能 镶 域 的 研究 中 怎么 样 领 先 半 个 身 位 而 已 。 嗯 ， 努 力 吧 ,还 有 什么 工作 比 这 种 没有 天 花 板 的 工作 更 
有 意思 的 呢 ? 


附录 A VMware Workstation 的 安装 


1.VMware 简 介 


VMware 是 由 美国 著名 的 虚拟 化 产品 提供 商 WMware 提 供 的 虚拟 化 软件 产品 。 它 基于 图 形 化 管理 ， 使 用 非常 简单 ， 对 虚拟 
机 指令 的 执行 效率 也 非常 高 。 


VMware 提 供 了 多 个 版 本 以 应 用 于 不 同 的 场景 ， 其 中 我 们 用 到 的 是 它 的 VMware Workstation， 这 个 版 本 主要 是 用 于 个 人 
电脑 的 虚拟 机 使 用 。 


安装 VMware Workstation 之 后 我 们 可 以 在 不 破坏 当前 Windows 环 境 的 情况 下 ， 使 用 资源 隅 离 的 办 法 再 安装 一 个 类 似 沙 箱 
环境 的 Windows 或 Linux 系 统 。 


2. 安 六 准 备 工作 
(1) 硬件 配置 需求 


在 安 六 软件 之 前 用 户 需 要 准备 足够 的 磁盘 空间 和 运行 时 所 占用 的 内 存 ， 为 了 保证 大 数据 软件 流畅 运行 ， 请 至 少 保证 如 下 硬件 


ME: 
- CPU: Intel Core i3 
- A: 4.00 GB 
` 硬盘 空间 : 50GB 
(2) VMware Fax 


大 家 可 以 从 VMware 软件 的 官方 网 站 下 载 最 新 版 本 的 VMware。 最 新 版 本 为 VMware Workstation 12， 下 载 地 址 如 


F: hAttp://www.vmware.com/products/workstation/workstation-evaluation, 


如 果 读 者 使 用 的 是 Windows 操 作 系 统 ， 可 以 点 击 “Download Now" 按钮 进行 下 载 ， 网 页 内 容 如 下 图 所 示 : 


Download VMware Workstation Fro Iria 


VMware Workstation Pro is the industry standard 
for running multiple operating systems as virtual 
VMWARE machines on a single PC. Thousands of IT 
WORKSTATION professionals, developers and businesses use 
p RO” Workstation Fro to be more agile, more productive 
and more secure every day. 


No other desktop virtualization software offers the 
performance, reliability, and cutting edge features 
of Workstation Pro. 


Learn More about Workstation for Windows 
Learn More about Workstation for Linux 


VMware Workstation 12.5 Pro for Windows VMware Workstation 12.5 Pro for Linux 64- 
64-bit bit 


© Download Now > © Download Now » 


VMware Workstation 为 商业 软件 ， 用 户 可 以 免费 试用 30 天 。 
(3) ZEE 


下 载 完 成 后 ， 进 入 安 丢 环节， 首先 双击 安 丢 文件 ， 会 进入 安 委 向 导 界 面 ， 如 下 图 所 示 。 


js VMware Workstation Pro == 


YEAR VMware Workstation Pro 2Zz3E[n] Ez 


WM WARE 


WORKST TIO =- 安装 回 导 将 在 您 计算 机 上 安装 VMware Workstation Pro o 
PRO Ud Suh uns subdi ARETAS- 


hRARBITES 1998-2016 VMware, Inc. (RE PTEHDUCHI o 本 产品 
爱 美 国 和 国际 版 权 及 知 训 产 权 法 保护 。 VMware 产品 获得 
恨 下 网 站 中 列 出 的 一 砚 或 多 项 专利 | 


http://www. vmware,com/go/patents-cn 


At PFE" $e, XEÉAVMwarem£kFHPSNEHIEMMGJRIE, aie “eSATA” | a Bo” FRE, AD 
下 图 所 示 。 


3d! VMware Workstation Pro 安装 


in RF rl 
TE TE Sep PFEP © 


VMWARE 最 终 用 户 许 可 协议 
请 广 意 ， 在 本 软件 的 安 闭 过程 中 无 论 可 能 会 出 现任 何 条 
E e FA ASK A BBS MSS RI PERDER RK 
重要 信息 ， 请 仔细 同 读 : 您 一 旦 下 载 、 安 用 或 使 用 本 杖 
牛 ， 您 【自然 人 或 法 人 ) 即 同意 接受 本 最 终 用 户 许可 协议 
(本 协议 ") 的 约束 。 如 果 您 不 同意 本 协议 的 条 款 ， 请 匆 下 v 
回 我 接受 许可 协议 中 的 条 款 (A) 


可 以 选择 默认 安 妆 的 位 置 ， 由 于 最 终 安 妆 实验 所 用 的 虚拟 机 的 位 置 可 以 和 虚拟 机 软件 VMware 放置 的 位 置 不 同 ， 我 们 可 以 直 
接 放 置 在 默认 的 C 磁 盘 上 ， 点 击 下 一 步 ， 如 下 图 所 示 。 


33 VMware Workstation Pro 安装 
自 定 义 安装 
选择 安 答 目 标 及 任何 其 他 功能 。 


Fen: 
C:\Program Files (x86)\VMware\VMware Workstation 


[增强 型 键盘 驱动 程序 (需要 重新 引导 以 使 用 此 功能 介 ) 
此 功能 要 求 主 机 驱动 苇 上 有 具有 10MB 空间 。 


点 击 “ 下 一 步 ” 按 钮 ， 在 本 实验 中 建议 不 勾 选 “启动 时 检查 产品 更 新 ”和 “帮助 完善 VMware Workstation Pro” , 


其 VMware Workstation Pro zz 
APRRR 
滴 辑 默认 充 置 以 提高 您 的 用 户 体 验 。 


[ | 自动 时 检查 产品 更 新 (C) 


在 VMware Workstation Pro 启动 时 ， 检 查 应 用 程序 和 已 安装 软件 组 件 是 否 ” 


HRE o 


| 帮助 完善 VMware Workstation 


Pro(H) 
[n] VMware 农庄 芒 名 系统 数据 和 使 用 情况 统计 信息 。 


为 了 使 用 方便 ， 可 以 勾 选 在 “桌面 ”创建 WMware Workstation Pro 的 快捷 方式 ， 如 下 图 所 示 。 


ps. VMware Workstation Pro zz 


RBA 
选择 您 要 所 入 系统 的 快捷 方式 。 


TELL TZ BIZ VMware Workstation Pro 的 快捷 方式 ; 
| amO) 
开始 菜单 程序 文件 来 (9) 


上 一 步 (6) 


最 后 点 击 “ 安 效 ” 按 钮 ， 之 后 等 待 进度 即 可 ， 如 下 图 所 示 。 


p. VMware Workstation Pro 安装 


oft Beiter VMware Workstation Pro 


ub Stak MARR. Ph 上 一 步 Beers Po WARE 


附录 B Ubuntu 虚拟 机 的 安装 


打开 已 经 安 半 好 的 VMware Workstation 虚 拟 机 软件 ， 在 初始 界面 点 击 “ 创 建新 的 虚拟 机 ”， 如 下 图 所 示 。 


WORKSTATION 12 PRO 


+ 


在 本 书 所 使 用 的 实验 环境 中 可 以 直接 选择 “典型 (推荐 ) ”， 然 后 点 击 “ 下 一 步 ”按钮 ， 如 下 图 所 示 。 


Eau M M M M a aE aL 
E x 合 主页 x | 


QU 下 此 处 键入 内 容 进 行 搜索 


WORKSTATION 12 PRO 


欢迎 使 用 新 建 诬 拟 机 向 导 


WORKST 革 IOoN SDRSPBIR HL EO 


dz oC) 
Boni T pM ORE Workstation 12.0 
虚拟 机 。 


OREA SCSI FUSAN, eect AT 


I ` 1 
以 及 与 旧版 VMware Ratt FEMiKIA 
的 虚拟 机 。 


< 上 一步 (8) 取消 


可 以 选择 “ 安 妆 程序 光盘 映像 文件 (iso) ”， 在 下 面 的 文件 框 中 将 内 容 指定 为 刚刚 我 们 下 载 的 Ubuntu16 的 DVD 镜 像 文件 
所 存放 的 地 址 ， 如 下 图 所 示 。 


e VMware Workstation 


SHB WRD woe | 5 - | |i o> Det oie 
库 X 


日 mu 我 的 计算 机 
2-3 WORKSTATION 12 PRO 


En 共享 的 虚拟 机 


新 建 虚拟 机 向 导 


安装 客户 机 操作 系统 | OO 


虚拟 机 如 同 物理 机 ， 需 要 操作 系统 。 您 将 如 何 安装 客户 机 操作 系统 ? 


安装 来 源 : | vCloud Air 
安装 程序 光盘 (D): 


@ 寂 装 程序 光盘 映像 文件 (iso)(M): 
Jd) 已 检测 到 Ubuntu 64 位 16.04.1。 
该 操作 系统 将 使 用 简易 安装 。 (这 星 什么 ?) 
〇 稍 后 安装 操作 系统 (5S)。 
创建 的 虚拟 机 将 包 合 一 个 空白 硬盘 。 


| < 上 -#8) | [下 =-#D > ] | mw | 


在 这 个 版 本 的 VMware Workstation 中 文 持 了 简易 安 委 模式 ， 为 了 实验 方便 ， 我 在 这 里 把 Linux 虚 拟 机 的 名 称 、 用 户 名 、 密 
码 ， 全 部 指定 成 为 “data”， 如 下 图 所 示 。 


De eS |S 


WORKSTATION 12 PRO 


指定 虚拟 机 名 称 〈 这 是 在 VMware 管理 中 使 用 的 名 称 ， 不 是 其 主机 名 ) 和 安 委 位 置 ， 如 下 图 所 示 。 


e VMware Workstation 


文件 日 ”编辑 (E) 查看 (V) ”虚拟 机 (M) BRED way | 
库 


x 
Q、 在 此 处 键入 内 容 进行 搜索 X 


HEES 


命名 虚拟 机 
您 要 为 此 虚拟 机 使 用 什么 名 称 ? 


虚拟 机 名 称 (V): 


位 置 (L): 


EOR 


在 编辑 “> 首选 项 中 可 更 改 默认 位 置 。 


给 虚拟 机 一 个 磁盘 大 小 ， 我 这 边 给 的 是 100GB ( 见 下 图 ) ， 虚 拟 机 会 用 按 需 分 配 的 方式 进行 动态 扩展 ， 所 以 不 用 在 一 开始 
就 担心 目 己 的 磁 盘 不 够 ，100GB 这 样 设置 一 般 不 会 报错 ， 如 下 图 所 示 。 


e VMware Workstation 


ME SSO SSM 虚拟 机 (M) BRED 8800 | 和 ~ | ol 00 s |DER pm 


E x 
QQ、 在 此 处 键入 内 容 进行 搜索 - 


日 mi 我 的 计算 机 
E CentOS7 


fi sage-73 WORKSTATION 12 PRO 


Cp 共享 的 虚拟 机 


新 建 专 拟 机 向 导 
指定 磁盘 容量 
磁盘 大 小 为 多 少 ? 


pigs A ee A iS ot 这 些 文件 最 初 很 
， 随 着 您 向 虚拟 机 中 添加 应 用 程序 、 文 件 和 MEK? 


最 大 磁盘 大 小 (GBX(S): | — 1002 


针对 Ubuntu 64 位 的 建议 大 小 : 20 GB 


〇 将 虚拟 磁盘 存储 为 单个 文件 (9) 


图 将 虚拟 磁盘 拆 分 成 多 个 文件 (M) 
aga 可 以 更 轻松 地 在 计算 机 之 间 移 动 虚拟 机 ， 但 可 能 会 降低 大 容量 磁盘 的 


最 后 点 击 “ 完 成 ”按钮 ， 开 始 引导 虚拟 机 局 动 。 为 了 加 快 安 委 速度 和 实验 的 速 厌 ， 建 议 在 硬件 资源 宛 足 的 情况 下 赋予 其 更 多 
的 硬件 资源 ， 我 在 这 里 给 了 4 个 CPU 内 核 和 8GB 的 内 存 。 通 常 建议 不 要 把 超过 50% 以 上 的 内 存 和 CPU 资源 划分 给 虚拟 机 ， 如 下 图 
PIT. 


e VMware Workstation 


文件 昌 HE) EEV 虚拟 机 (M) BRED WE | 0-7 | >|. 
" a) 合 让 x | 
| 
日 mi 我 的 计算 机 
(5) CentOS7 


(fi sage-7.3 
Cp 共享 的 虚拟 机 


EEAS 


已 准备 好 创建 虚拟 机 
FEAR BREIL, AAA Ubuntu 64 位 和 VMware Tools。 


将 使 用 下 列 设 置 创建 虚拟 机 : 


datal 
C:\vms\ubuntu 
Workstation 12.0 
Ubuntu 64 位 


100 GB, 拆 分 
2048 MB 


NAT 
其 他 设备 : 2 个 CPU 核心 , CD/DVD, USB 控制 器 , 打印 机 , 声卡 


自 定义 硬件 (G)… 
回 创 建 后 开启 此 虚拟 机 (P) 


在 简易 安装 模式 下 Linux 会 自动 进行 引导 。 之 后 就 等 待 Linux 自 动 一 步 一 步 进行 安装 ， 不 用 人 为 干预 。 


@ datat - VMware Workstation 


XD WE REO) 2x BRAD WA | 有 ~ olp 【| 
| x 


d Qa x| deta x 
| Q Tite eC . 


Install (as superuser) 


Welcome to Ubuntu 


Fast and full of new features, the latest 
version of Ubuntu makes computing easier 
than ever. Here are just a few cool new things 
to look out for.. 


输入 密码 data， 如 下 图 所 示 。 


(B) data1 - VMware Workstation 


XA) SEO SEV 虚拟 机 (M) 选项 中 am | M - | S/O. (D [ID eg X Om [|I] 


F : dota x 
Q、 在 此 处 键入 内 容 进行 搜索 = O En 


4)) 12:26PM i 


EF CentOS7 

Gi sage-7.3 

E data1 
Sev 


Guest Session 


要 梅 输入 定向 到 该 虚拟 机 ， 请 在 虚拟 机 内 部 单 击 或 按 Ctrl+G. SB 5 E Py m CL DES | ED. 7 


到 此 步 为 止 已 经 引导 进入 Ubuntu 桌面 了 ， 如 下 图 所 示 。 


(B) data1 - VMware Workstation 


文件 日 ”编辑 (E) SSM 虚拟 机 (M) BED AH | I~ | CD | (D 
库 x 


h 进行 
Q、 在 此 处 键入 内 容 进行 搜索 zo» M) 12:27PM il 


c ms) 我 的 计算 机 
EF] CentOS7 
WT sage-7.3 
E data1 
C 共享 的 虚拟 机 


Disconnected - you are now offline 
N e tw Oo r k 


b EN US 3 JI S 


a 
"7 


ERG ES uL ， 请 在 虚拟 机 内 部 单 击 或 按 Ctrl+G。 


附录 C ”Python 语言 简介 


Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ， 由 Guido van Rossum 于 1989 年 发 明 ， 第 一 个 公开 发 行 版 发 行 于 
1991, 


Python 是 纯粹 的 自由 软件 ， 它 的 源 代码 和 解释 器 CPython 遵 循 GPL (GNU General Public License) 协议 。 


Python 和 C 语 言 个 一 样 ， 它 是 一 种 脚本 语言 。C 语 言 在 写 完 源 代码 后 是 需要 编译 成 二 进 制 代码 才能 够 执行 的 ; Python 则 不 
用 ， 它 在 生产 环境 中 出 现 仍旧 是 源 代 码 的 .py 文件 形式 ， 在 执行 的 瞬间 才 由 Python 解释 器 将 源 代 码 转换 为 字 节 码 ， 然 后 再 由 
Python 解 释 器 来 执行 这 些 字 市 码 。 

这 种 形式 的 好 处 是 不 用 考虑 平台 系统 的 问题 ， 可 以 和 Java 语 言 一 样 “ 一 次 编写 到 处 执行 ”。 缺 点 也 是 显而易见 的 ， 融 是 每 次 
进行 字 节 码 转 换 和 字 书 码 执行 没有 直接 执行 二 进 制 的 效率 高 。 好 在 对 于 执行 效率 苛刻 的 场合 毕 葛 较 少 ， 另 外 随 着 计算 机 硬件 能 
的 提升 ， 执 行 效率 的 矛盾 也 变 得 不 明显 了 。 

和 其 他 计算 机 语言 一 样 ，Python 语 言 也 有 上 自己 的 一 套 语法 基础 。 有 了 顺序、 分支 、 循 环 、 调 用 的 程序 组 织 结 构 ， 以 及 数字 、 
字符 串 、 列 表 、 元 组 、 集 合 等 多 种 数据 类 型 。 我 们 在 这 里 介绍 一 些 在 实验 中 涉及 的 知识 。 


1. 安 装 python 
安 沁 python 的 方法 不 止 一 种 ，Ubuntu16.04 上 点 认 安 北 的 是 2.7.12 版 本 ， 可 以 执行 如 下 命令 查看 : 


data@ubuntu:~S python -V 
Python 2;7,.12 


如 果 要 安 和 3.6.0 版 本 的 话 ， 可 以 这 样 做 : 


dataeubuntu:-$ wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tar.xz 
data@ubuntu:~S xz -d Python-3.6.0.tar.xz 

data@ubuntu:~S tar -xvf  Python-3.6.0.tar 

data@ubuntu:~$ cd Python-3.6.0 

dataeubuntu:-$./configure 

data@ubuntu:~S make 

data@ubuntu:~S sudo make install 


最 后 用 命令 验证 一 下 : 


data@ubuntu:~/Python-3.6.0$ python3.6 -V 
python 3.6.0 


2.Hello World 


Python 的 Hello World 与 别 的 计算 机 语言 没什么 区 别 ， 而 且 更 加 简洁 ， 可 以 直接 在 交互 式 编 程 环 境 中 写 : 


print ("Hello, Python!"); 


3. 行 与 缩 进 
Python 脚 本 文件 和 普通 的 文本 文件 没有 太 大 区 别 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 
# 文件 名 : test.py 


if True: 
print "True" 
else: 


print "False" 


其 中 # 为 注释 标记 ， 如 果 在 一 行 中 使 用 #， 那 么 # 后 的 内 容 是 


， 一 般 我 们 喜欢 写成 .py 作为 后 缀 的 方式 。 


` 会 航 解 释 执 行 的 。 


下 面 的 全 Helse 是 分 文 型 语句 ， 当 if 后 的 内 容 为 True (A) ， 则 执行 if 所 辖 的 部 分 ， 人 否则 执行 else 所 辖 的 部 分 。 


Oa 


python 语言 中 是 不 用 begin/end 或 {} 来 表示 执行 段落 的 起 止 的 ， 这 里 的 if 和 else 需 要 左 侧 对 齐 ， 


限 。 


用 缩 进来 表示 段落 所 辖 范 围 界 


Python 语言 中 标准 的 数据 类 型 有 这 样 几 种 : Numbers (F) . String (FSR) . List (列表 ) 、Tuple (元 组 ) 、 


Dictionary (字典 ) 。 


下 面 这 段 代 码 演示 了 ， 整 数 型 数字 、 浮 点 型 数字 以 及 字符 串 类 型 的 赋值 和 打印 操作 。 


#!/usr/bin/python 
# -*- coding: UTF-8 


ES i 


counter = 100 s 赋值 整数 型 变 
miles = 1000.0 # }## 4 # 


name = "John" 4 字符 串 


print counter 
print miles 


print name 


EL 
Æ 


下 面 这 段 代 码 演 示 的 是 列表 类 型 的 操作 ， 列 表 很 像 Java 语 言 中 的 数组 ， 只 不 过 列表 允许 不 同类 型 的 数据 放 在 同一 个 列表 中 ， 


而 数组 不 可 以 一 它 只 能 要 求 折 有 的 元 素 类 型 一 致 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


ligt = | tabsd', T7T85 . 2,23, “Onn; 70.2 | 
Linyvilist e [123,. "Jann" ] 


print list # 输出 完整 列表 

print list[0] 4 输出 列表 的 第 一 个 元 素 

print list[1:3] 4 输出 第 二 个 至 第 三 个 的 元 素 

print list[2:] # 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 
print tinylist * 2 # 输出 列表 两 次 

print list + tinylist # 打印 组 合 的 列表 


面 这 段 代 码 演 示 的 是 元 组 类 型 的 操作 。 操 作 方 法 和 列表 很 像 ， 但 是 Python 语 法 不 允许 对 元 组 中 的 元 素 进行 二 次 赋值 。 它 
只 


相当 于 是 只 读 类 型 的 列表 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


tiple = { 'abcd!. 786 , 2:23, "Jenn", 70.2 | 
tinytuple = (123, 'Jjohn') 


print tuple # 输出 完整 元 组 

print tuple[0] # 输出 元 组 的 第 一 个 元 素 

print tuple[1:3] # 输出 第 二 个 至 第 三 个 的 元 素 

print tuple[2:] # 输出 从 第 三 个 开始 至 列表 末尾 的 所 有 元 素 
print tinytuple * 2 # 输出 元 组 两 次 

print tuple + tinytuple # 打印 组 合 的 元 组 


下 面 这 段 代码 演示 的 是 型 的 操作 。 字 典 类 型 有 些 像 Jjava 中 的 HashMap， 是 通过 主键 Key 来 访问 对 应 的 Value 值 ， 而 不 
是 靠 下 标 来 访问 。 
#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


dict = {} 


dict['one'] = "This is one" 
dict[2] = "This is two" 


tinydict = {'name': 'john','code':6734, 'dept': 'sales'} 


print dict['one'] # 输出 键 为 'one' WE 
print dict[2] # 输出 键 为 2 的 值 

print tinydict 4 输出 完整 的 字典 

print tinydict.keys() # 输出 所 有 键 
print tinydict.values() # 输出 所 有 值 


5. 循 环 语句 

这 段 代 码 演示 的 是 while 循 环 ，while 循 环 后 面 的 条 件 表 示 在 满足 条 件 的 时 候 执 行 while 所 辖 的 程序 段 。 
#!/usr/bin/python 

count = Q 

while (count < 9): 


print 'The count is:', count 


count = count + 1 


print "Good bye!" 


在 上 面 这 段 程序 中 ， 表 示 count< 9 的 情况 下 ， 执 行 其 下 面 的 两 行 语句 ， 不 包括 下 面 这 行 : 
print "Good bye!" 
下 面 这 段 程序 略 显 繁琐， 不 过 内 容 仍然 很 简单 。 这 是 循环 的 另 一 种 写法 


一 个 循环 泡 围 。 这 里 是 一 个 二 重 循环 ， 也 残 是 两 个 循环 及 生 了 扎 套 
在 10 和 20 之 间 做 循环 ， 内 层 循环 是 | 在 2 和 和 num 之 间 做 循环 。 


for 循 环 ，for 循 环 也 是 一 种 循环 ， 后 面 写 出 的 是 
在 一 个 循环 的 执行 中 有 另 一 个 循环 。 外 层 循环 是 让 num 


#!/usr/bin/python 
# ~*~ Coding: UTF-8 -*- 


for num in range(10,20): 


for i in range(2,num): 


KK 10 到 20 之 间 的 数字 
根据 因子 迭代 


if num£i == O0: 确定 第 一 个 因子 
j=num/i i AX6€—^BT 


print '$d =F £d * $d 


break 


© 


$ (num,i,j) 


跳出 当前 循环 


循环 的 else 部 分 


+ + 


else: 
print num, ' 是 一 个 质数 ， 
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接 打 印 传 入 的 变量 值 。 


下 面 最 后 两 句 是 对 国 数 的 调用 。 
#!/usr/bin/python 


# -*- coding: UTF-8 -*- 


# 定义 函数 

def printme( str ) : 
" 打印 任何 传 入 的 字符 串 " 
print Str: 


return; 


# 调用 函数 
printme(" $£ X348 AP AEX BR 17) ; 
printme (" 再 次 调用 同一 函数 ") ; 


7. 模 块 


模块 是 一 种 大 单位 的 代码 段 集合 ， 例 如 有 一 个 模块 support.py， 它 的 文件 中 有 多 个 阔 数 定义 ， 其 中 一 个 叫做 print_func 阔 
数 。 在 我 不 对 support.py 这 个 模块 进行 引用 的 时 候 是 不 能 调用 print_func 函 数 的 。 上 面 这 段 代码 中 ，import support 是 导入 
support.py 模 块 ， 下 面 的 support.print func ("Zara") 是 调用 support 中 的 print 国 数 ， 并 传 入 变量 "Zara "作为 参数 。 


#!/usr/bin/python 
# -*- coding: UTF-8 -*- 


H 导入 模块 


import support 


# 现在 可 以 调用 模块 里 包含 的 函数 了 


support .print func("Zara") 
这 是 导入 模块 的 男 一 种 写法 ， 区 别 是 它 能 够 导入 一 个 模块 的 一 部 分 而 非 全 部 模块 代码 。 示 例 中 是 指 从 fib 这 个 模块 中 只 导 
Fibonacci 这 个 函数 。 


from fib import Fibonacci 


8. 小 结 
以 上 惑 是 Python 语言 中 所 涉及 的 最 基本 的 语法 ， 基 本 是 扣 着 本 书 所 用 的 语法 所 写 。 


而 强大 的 Python 所 文 持 的 其 他 内 容 ， 大 家 如 果 有 兴趣 可 以 再 找 一 些 专业 介绍 Python 的 资料 来 学 习 ， 本 书 对 Python 基本 语 
法 的 介绍 到 此 为 止 。 


在 本 书 中 我 们 所 列举 的 示例 代码 中 ， 所 涉及 的 库 有 这 样 一 些 : 


(1) numpy 


NumPy 系 统 是 python 的 一 种 开源 的 数值 计算 扩展 库 。 它 提供 了 许多 高 级 的 数值 编程 工具 ， 如 矩阵 数据 类 型 、 矢 量 处 理 ， 以 
及 精密 的 运算 库 ， 专 为 进行 严格 的 数字 处 理 而 产生 。 多 为 很 多 大 型 金融 公司 使 用 ， 以 及 核心 的 科学 计算 组 织 如 Lawrence 
Livermore，NASA 用 它 处 理 一 些 本 来 使 用 C++，Fortran 或 Matlab 等 所 做 的 任务 。 


(2) matplotlib 
一 个 专业 的 绘图 工具 库 ， 官 方 网 址 在 http://matplotlib.org/。 

它 调用 简单 ， 使 用 非常 方便 ， 在 配合 python 进 行 数据 挖 扬 和 报表 制作 的 过 程 中 是 一 种 利器 。 
(3) scipy 

SciPy 是 一 蒜 方便 、 易 于 使 用 、 专 为 科学 和 工程 设计 的 python 工 具 包 。 


它 提 供 的 内 容 很 丰 曲 ， 文 件 输入 和 输出、 特殊 函数 、 续 性 代数 运算 、 快 速 传 里 叶 变 损 、 统 计 与 随机 、 微 分 和 积分 、 图 像 处 理 等 


诸多 封装 内 容 。 
官方 网址 在 : http://www.scipy.org/， 有 兴趣 大 家 可 以 去 了 解 更 多 的 内 容 。 
(4) Scikit-learn 


Scikit-learn 是 最 著名 的 Python 机 器 学 习 库 之 一 。 


附录 D “安装 Theano 


Theano 是 一 款 基 于 Python 的 深度 学 习 框 架 ， 性 能 恨 好 ， 目 前 最 新 版 本 是 0.8.2， 官 方 网 址 


是 http://www.deeplearning.net/software/theano/。 
Theano 支 持 目 前 主流 的 各 种 神经 网 络 结构 ， 全 连接 前 馈 网 络 、 卷 积 网 络 、 循 环 神经 网 络 等 。 


安装 Theano 首 先 要 满足 其 基本 包 依 赖 ， 如 果 是 Python2 则 需要 安 六 2.6 以 上 的 版 本 ， 如 果 是 Python3 则 需要 安装 3.3 以 上 的 
版 本 。 


还 需要 安装 NumpPy 1.7.1，SciPy 0.11 及 以 上 版 本 。 
可 以 直接 使 用 root 用 户 权 限 下 载 。 


wget https://github.com/Theano/Theano/archive/master.zip 


解压 缩 : 


unzip master.zip 


安装 : 


cd Theano-master 


pip install Theano -user 


附录 E ”安装 Keras 


Keras 是 一 个 用 Python 实现 的 可 以 应 用 于 TensorFlow 或 Theano 的 神经 网 络 库 ， 有 良好 的 人 机 接口 ， 使 用 方便 。 官 方 网 站 位 
Fhttps://keras.io/, 


Keras 需 要 Python 2.7~3.5 版 本 的 支持 。 在 安装 之 前 需要 事先 安装 好 TensorFlow 或 Theano。 


使 用 root 用 户 权 限 下 载 。 

wget https://github.com/fchollet/keras/archive/master. zip 
REEMA. 

unzip master.zip 
Z. 

cd keras-master 


python setup.py install 


pip install keras 


附录 F ZÆCUDA 


1. 显 卡 驱 动 
输入 命令 : 


lspci | grep NVIDIA 


下 面 丈 会 列 出 当前 主机 的 显卡 型 号 以 及 个 数 : 


zhongminshengQubuntu:/data5/tensorflow prj/tensorflow/tensorflow/models/rnn/ptb$ lspci | grep NVIDIA 
:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev ai) 
:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev ai) 


:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev al) 
:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev al) 


我 们 这 上 面 有 4 块 Tesla K40m 的 显卡 。 


输入 uname-a， 碍 验 当 前 主机 系统 是 否 为 64 位 。 


reuse IE Vx pe | prj/tensorflow/tensorflow/models/rnn/ptb$ uname -a 


Linux ubuntu 3.2.0-93-generic #133-Ubuntu SMP Fri Oct 23 13:32:16 UTC 2015 x86 64 x86 64 x86 64 GNU/Lin 


确认 后 前 往 英 伟 达 官方 网 站 下 载 本 机 型 号 的 驱动 : 
http://www.nvidia.com/Download/index.aspx? lang=en-us, 


按照 条 件 搜 索 相 天 显卡 驱动 : 


NVIDIA Driver Downloads 


Option 1: Manually find drivers for my NVIDIA products. 
Product Type: | Tesla 


Product Series: | K-Series 


Product: | Tesla K40m 


Operating System: | Linux 64-bit 


CUDA Toolkit: M 


下 载 文件 NVIDIA-Linux-x86 64-367.55.run， 执 行 该 文件 : 


sudo sh NVIDIA-Linux-x86 64-367.55.run 
安 委 成 功 后 运行 nvidia-smi 测 试 。 
nvidia-smi 


成 功 的 话 会 出 现 显 卡 驱 动 信息 : 


Persistence-M| 
Pwr:Usage/Cap| 


Driver Version: 


Bus-Id 


367.55 


Disp.A | Volatile Uncorr. ECC 
Memory-Usage | GPU-Util Compute M. 


0000:02:00.0 Off 0 


OMiB / 11439MiB Default 
0000:03:00.0 

OMiB / 11439MiB 

OMiB / 11439MiB 


0000:84:00.0 


| 

| 

+ 

| 

| 

+ 

| 0000:83:00.0 
| 

+ 

| 

| OMiB / 11439MiB 
十 


2 4=CUDA 
前 往 h leveloper.nvidia.com/cuda-75-downloads-archive FEE CUDAZZZ&&, 


根据 系统 版 本 好 找到 适合 的 run 文 件 : 
Select Target Platform € 


Click on the green buttons that describe your target platform. Only supported 
platforms will be shown. 
Operating 


5ystem 


Distribution Fedora 


OpenSUSE RHEL 


14.04 


SLES 


Version 15.04 


Installer Type 
e 


deb [local] deb [network] 


runfile [Local] 


下 载 run 包 : 


Download Target Installer for Linux Ubuntu 14.04 x86_64 


cuda 7.5.18 linux.run [md5sum: 4b3bcecf0dfc35928a0898793cf3e4c6] 


Download [1.1 GB} 


Installation Instructions: 
1. Run sudo sh cuda 7.5.18 linux.run- 
2. Follow the command-line prompts 


The GPU Deployment Kit is available as a separate download here. 


Car fiirthar infarmatinn ran tha ooo fend ims and tha DIINA 


sudo sh cuda_7.5.18 linux.run 
根据 提示 完成 安装 ， 注 意 之 前 因为 已 经 安装 了 驱动 ， 它 提示 要 安装 驱动 的 时 候 可 以 跳 过 驱动 的 部 分 。 
安装 完成 之 后 重 局 : 
sudo reboot 
重启 后 ， 需 要 添加 环境 变量 。 使 用 vim 打 开 如 下 文档 : 
sudo vim /etc/profile 


在 文件 未 尾 添加 : 


export PATH-/usr/local/cuda/bin:$PATH 
保存 完成 后 ， 执 行 如 下 命令 使 环境 变量 立即 生效 : 
source /etc/profile 
然后 还 需要 添加 lib 的 路 径 : 


sudo vim /etc/ld.so.conf.d/cuda.conf 


在 文件 中 写 入 如 下 内 容 然 后 保存 : 


/usr/local/cuda/lib64 
之 后 执行 如 下 命令 使 之 生效 : 


sudo ldconfig 


3.CUDNN 的 配置 


到 官方 网 站 下 载 cudnn， 有 用 户 名 的 话 直 接 登 录 ， 没 有 用 户 名 的 话 需要 注册 登 


https://developer.nvidia.com/cudnn, 


“al 


Fach Rat, BE MERA: 


The NVIDIA CUDA® Deep Neural Network library [cuDNN) is a GPU-accelerated library of primitives for deep neural 
networks. CUDNN provides highly tuned implementations for standard routines such as forward and backward 
convolution, pooling, normalization, and activation layers. cuDNN is part of the NVIDIA Deep Learning SDK. 


Deep learning researchers and framework developers worldwide rely on cuDNN for high-performance GPU 
acceleration. It allows them to focus on training neural networks and developing software applications rather than 
spending time on low-level GPU performance tuning. cuDNN accelerates widely used deep learning frameworks, 


including Caffe, TensorFlow, Theano, Torch, and CNTK. See supported frameworks for more details. 


cuDNN is freely available to members of the Accelerated Computing Developer Program 


任意 选择 其 中 的 项 目 ， 如 下 图 所 示 : 


Please guide us on how you use this library by completing this short survey. You will directed to the download site 
immediately after completing this form. Thank you! 
What types of data are you working with? 


E 


m“ Images 


O Video 
O Volumetric 


O Audio & Speech 


Application Domain 


VE Image Classification d 


LJ Facial Recognition 
LJ Action Recognition 


LJ Big Data 


Deep Learning Framework 


o» 


EGO ONDE ARTE 


t) Blocks 


LJ Chainer 


Proceed To Downloads 


版 本 需要 选择 CUDA7.5 (注意 ， 如 果 你 所 运行 的 工程 需要 其 他 特定 版 本 的 CUDA， 请 事先 确认 并 下 载 对 应 的 版 本 ) ， 如 下 
图 所 示 。 


NVIDIA cuDNN is a GPU-accelerated library of primitives for deep neural networks. 


| Agree To the Terms of the cuDNN Software License Agreement 
Please check your framework documentation to determine the recommended version of cuDNN. 
If you are using cuDNN with a Pascal (GTX 1080, GTX 1070], version 5 or later is required. 


Download cuDNN v5.1 (August 10, 2016], for CUDA 8.0 


Download cuDNN v5.1 (August 10, 2016], for CUDA 7.5 


cuDNN User Guide 
cuDNN Insta ide 

4 CuDNN v5.1 Library for Linux 
CuDNN v5.1 Library for Power8 
CUuDNN v5.1 Library for Windows 7 
CuDNN v5.1 Library for Windows 10 
CuDNN v5.1 Library for OSX 
cuDNN v5.1 Release Notes 
cuDNN v5.1 Runtime Library for Ubuntu14.04 (Deb) 
cuDNN v5.1 Developer Library for Ubuntu14.04 (Deb) 
cuDNN v5.1 Code Samples and User Guide Linux [Deb] 
cuDNN v5.1 Runtime Library for Power8 (Deb) 
cuDNN v5.1 Developer Library for Power8 (Deb) 


cuDNN v5.1 Code Samples and User Guide Power8 (Deb) 


Download cuDNN v5 (May 27, 2016], for CUDA 8.0 


下 载 后 解压 缩 ， 转 到 该 目录 下 ， 执 行 : 


sudo cp lib* /usr/local/cuda/1ib64/ 
sudo cp cudnn.h /usr/local/cuda/include/ 


更 新 软 链接 


cd /usr/local/cuda/lib64/ 

sudo rm -rf libcudnn.so libcudnn.so.5 

sudo ln -s libcudnn.so.5.1.3 libcudnn.so.5 
sudo ln -s libcudnn.so.5 libcudnn.so 
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